语音交互正经历一场静默但关键的范式转移:从“字准确率”的比拼,转向“语义与情感理解”的深水区。阶跃星辰推出的StepAudio 2.5 Realtime实时语音模型,正是这场转移中的标志性产品——它不再满足于将用户的语音转写成文字,而是试图“听懂”说话者语气里的不耐烦、语速中的犹豫、停顿背后的不确定,甚至微表情(若结合视觉输入)等副语言信息。
这一能力的落地有赖于模型架构的精心设计。与传统的语音识别+文本大模型串联方案不同,StepAudio 2.5在端到端训练时直接纳入了声学特征中的副语言维度,使得模型能够在实时流式交互中动态捕捉用户情绪状态,并作出语调、停顿乃至人格化的回应。产品团队披露,这一特性通过RLHF(基于人类反馈的强化学习)进行了专门的调优,确保模型在复杂角色扮演压力测试下仍能保持角色一致性——这对追求沉浸感的虚拟数字人、游戏NPC、陪伴型AI等应用而言,是确保用户体验不“出戏”的核心能力。
更值得关注的是StepAudio 2.5的“人格化”架构设计。API允许开发者自定义人格,包括个性、背景故事和语言风格,同时提供了上万种原生人格选项,通过排列组合可衍生出数百万种差异化的交互特征。这种“人格即模块”的思路,将语音交互从千篇一律的机械化应答,推向了个性化、可定制的生态。产品内置的5个可直接体验的预设人格,则为快速原型验证提供了低门槛入口。支持中英文双语的特性,进一步拓展了其面向全球市场的适用性。
横向对比行业内其他实时语音模型(如OpenAI的GPT-4o语音模式、国内同类声学理解模型),StepAudio 2.5的差异化在于明确将“副语言感知”作为系统级能力而非附属功能,并且通过人格组合的开放API降低了开发者的定制成本。对于正在搭建虚拟人、语音助手、客服机器人或AI陪伴产品的团队而言,这一模型的发布意味着:过去需要大量手动调节规则和回复策略才能勉强实现的“拟人感”,现在可以通过一行API调用直接获得。从技术路线看,语音交互从“听得见”到“听得懂”的跨越,正成为现实。可以预见,未来半年内,将有一批基于StepAudio 2.5人格化能力的应用涌现,重新定义用户对智能语音的体验预期。