语音交互正从“听见”走向“听懂”。阶跃星辰推出的StepAudio 2.5 Realtime实时语音模型,首次将副语言感知能力与人格化定制深度结合——不仅识别用户说了什么,还通过语气、语速、停顿甚至微表情等线索理解情绪状态。这一突破意味着语音AI不再仅仅是指令执行器,而是能感知对话氛围、做出情感回应的交互伙伴。
从技术架构看,StepAudio 2.5的核心创新在于两点。一是端到端副语言建模:传统语音模型通常先将语音转文本再分析语义,丢失了大量非词汇信息。而StepAudio 2.5直接在音频特征层提取语气、节奏、停顿等副语言特征,并与语义理解并行处理,从而在实时对话中感知用户“是否不耐烦”“是否在犹豫”等细微情绪。二是人格化API设计:开发者可通过API为AI设定个性、背景故事和语言风格,系统提供上万种原生人格选项,理论上可组合出数百万特征。同时内置5个可直接体验的预设人格(如温暖助手、冷幽默伴侣等),大幅降低集成门槛。
值得注意的是,StepAudio 2.5经过了RLHF(从人类反馈中强化学习)调优。在复杂的角色扮演压力测试中(如用户突然切换话题、反复质疑或提出矛盾要求),模型能保持角色一致性,不会出现“人格漂移”或语气冲突。这种稳定性对需要长期陪伴的虚拟角色尤为重要——比如情感陪伴型数字人、游戏NPC、在线教育导师等场景。
与当前主流语音模型相比,StepAudio 2.5补足了两个关键短板。目前市面上大多数实时语音方案(如ElevenLabs的即时语音克隆、OpenAI的语音模式)更侧重音色还原和流畅度,但在情绪理解上存在盲区。另一类专注对话的模型(如Character.AI)虽有个性化设定,却缺乏对副语言特征的实时感知。StepAudio 2.5将两者融合,让AI既能识别“用户用轻快的语气说‘你终于来了’”中的喜悦,也能根据设定的人格以“带点埋怨的亲切口吻”回应。
从商业落地角度看,API自定义人格的设计最具实操价值。虚拟人创业团队、智能硬件厂商、客服系统集成商无需从零训练模型,只需调用API并配置人格参数(如“语气:70%活泼+30%知性;背景:前科技公司产品经理”),即可获得差异化交互体验。这种灵活性在当前“模型即服务”的浪潮中颇具竞争力——它让AI从“一个模型打天下”进化为“千人千面”的专属语音助手。
当然,该模型目前仅支持中英文,且人格组合的稳定性在实际大规模应用中仍需验证。但StepAudio 2.5的方向已清晰:语音交互的下一个战场,不是更逼真的声音,而是更懂人心的AI。对于正在构建下一代虚拟人、语音助手或沉浸式体验的团队,现在就是切入实时情感交互的最佳时机——从关注“音色像谁”转向“情绪对不对”。