StepAudio 2.5实时语音模型：让AI听懂语气情绪，人格化交互升级

AIHOT小编

2026-05-25 12:31

语音交互技术正从“能听懂”向“会感受”跨越。阶跃星辰发布的StepAudio 2.5 Realtime实时语音模型，将焦点从纯文本识别的精度，转向了对人类语言中副语言特征的深度感知——语气、语速、停顿，甚至微表情。这一技术路线，直指当前语音助手交互中“机械感”与“程式化”的痛点，为虚拟人、陪伴型AI等应用场景提供了更具自然感与人格化的交互方案。

StepAudio 2.5的核心能力在于对副语言特征的感知与响应。模型不仅能识别用户说出的词语，更能理解“怎么说”——焦急的语速、犹豫的停顿、上扬的语调所隐含的情绪状态。这使其在情感陪伴、压力咨询、客服情绪安抚等场景中具备突破潜力。区别于此前仅依赖文本理解的语音模型，StepAudio 2.5实现了模态间的语义对齐，让机器真正开始“倾听”而非仅为“转写”。

产品另一关键创新在于“人格化交互”架构。开发者可通过API为语音模型设定个性、背景故事与语言风格，同时内置上万种原生人格选项，支持组合形成数百万种特征。这种设计将AI角色的“人格一致性”问题产品化：不是每次对话皆独立响应，而是围绕预设人格进行行为约束。经RLHF（基于人类反馈的强化学习）调优后，模型在复杂角色扮演压力测试（如逻辑陷阱、情绪激怒测试）中仍能维持角色设定，这对于专业虚拟偶像、定制化AI陪伴系统而言，是落地可靠性的关键保障。

结合行业背景看，当前主流语音助手（如Siri、小爱同学）在情绪识别与人格化保持方面仍存明显短板。用户常遭遇“鸡同鸭讲”式的回应，缺乏持续的语境与情绪记忆。StepAudio 2.5以API方式开放自定义人格，意味着不同产品可根据自身场景——从中年的严肃理财顾问到儿童的天真故事伙伴——快速构建专属语音交互层，这比自研全套语音情感模型的方式更为轻量且可控。

产品已支持中英双语，并预设5个可直接体验的人格，利于早期验证。对于虚拟形象直播、游戏NPC、智能语音客服团队而言，StepAudio 2.5提供了一个从“能听懂”到“会表达”的跃迁工具：它不仅降低情感AI开发门槛，更将交互推向更接近人类自然的副语言层面。未来，随着情感维度及表情-语音多模态融合的深化，这类模型有望重塑人机交互的基本范式——让对话不再局限于信息交换，而是成为真正的情感交流。