从“能听会说”到“听懂情绪”：StepAudio 2.5副语言感知，重新定义人机语音交互

AIHOT小编

2026-05-25 21:01

AI语音交互赛道正在经历一次关键的技术跃迁：从“实时转写+平淡合成”走向“副语言感知+人格化交互”。阶跃星辰于日前正式推出的StepAudio 2.5 Realtime模型，正是这一趋势的典型代表。它不再仅仅将语音当作文字传输的通道，而是深入捕捉“怎么说”背后的情绪密码——语气、语速、停顿乃至微妙的副语言特征，全部成为交互中的有效信息。

这意味着，语音AI具备了真正意义上的“察言观色”能力。传统语音系统往往因无法识别用户的犹豫、兴奋或不满，导致交互生硬、机械。而StepAudio 2.5通过捕捉这些细微声学特征，使AI不仅“听懂”语义，更能“读出”意图。这种能力在客服情绪识别、虚拟人陪伴、游戏对话等场景中，构成了从“能听会说”到“读懂情绪”的实质性升级。

更值得关注的是其产品化交付思路。StepAudio 2.5提供了清晰的API接入方案，允许开发者通过自定义设定为人格赋予前后一致的个性、背景故事与语言风格。官方提供了上万种原生人格供开发者组合调用，理论可搭配出数百万种不同的特征画像。这种“开箱即用+深度定制”的灵活架构，大幅降低了开发者在人格化语音交互场景中的工程成本。

针对角色扮演这一对一致性要求极高的场景，模型特别引入了RLHF（基于人类反馈的强化学习）调优。经过压力测试验证，即便在复杂、多轮的角色对话中，StepAudio 2.5也能有效维持预设人格的稳定性，不出现“角色出戏”或“人设崩塌”的现象。同时，模型原生支持中文和英文双语交互，场景适配性更广。

从行业视角看，StepAudio 2.5的发布填补了国内在多模态人格化语音模型领域的一个关键缺口。国内外已有大厂在尝试类似方案，但多在“识别”层面做得较重，而在“人格化”和“实时性”的平衡上存在短板。StepAudio 2.5同时兼顾了低延迟实时响应和丰富的人格化表达能力，这在一定程度上形成了差异化优势。

对虚拟人、泛娱乐、智能客服等领域的开发者而言，这一能力升级是实打实的工具革新。建议重点关注其人格定制接口的灵活度，以及RLHF在实际场景中的角色保持表现。未来，随着副语言感知能力的进一步精细化，语音交互有望脱离“工具属性”，走向真正的“人格化互动”。