StepAudio 2.5实时语音模型发布：打破次元壁，语音AI开始“读心”

AIHOT小编

2026-05-25 02:05

当语音AI开始理解叹息、迟疑与兴奋，人机对话的边界正在被重新定义。StepFun 发布的 StepAudio 2.5 Realtime 正是这一趋势的里程碑。

传统语音交互长期停留在“文字转译”的浅层：机器能识别你说“我很好”，却读不出那句“我很好”背后的低落。StepAudio 2.5 的核心突破在于将副语言感知（语气、语速、停顿、微表情）融入实时语音分析。这不仅是技术的增量提升，更是交互范式的质变——机器开始“听语气、识情绪”。

更值得行业关注的是其人格化交互设计。StepAudio 2.5 通过 API 开放了“人格设定”能力，开发者可以像编写角色档案一样为 AI 赋予个性、背景故事与语言风格。产品内置的上万种原生人格可组合出数百万种特征，相当于一个巨型“人格基因库”。目前，5个预设人格已可直接体验，涵盖从知性导师到活泼伴侣的多个维度。

在技术落地的关键矛盾——角色一致性上，产品采用了 RLHF（基于人类反馈的强化学习）进行调优。据悉，在复杂的角色扮演压力测试中，模型能够长时间保持人格不“出戏”，这解决了此前许多语音助手在长对话中性格漂移的痛点。

从行业应用来看，StepAudio 2.5 为虚拟人、数字伴侣、语音助手等团队提供了更落地的方案。想象一下：当你对客服助手叹气时，它不再是机械询问“有什么可以帮您”，而是先用关切的语气回应你的情绪；当你在虚拟陪伴应用里沉默时，AI 能感知你的欲言又止。这些场景正从 demo 变为现实。

虽然目前模型仅支持中文和英文，但其API 级自定义的灵活性已大幅降低了人格化交互的落地门槛。对于正在追赶 AI 语音赛道的团队，此时正是将“对话人格”作为差异化核心的切入窗口。随着人格化深度与语音情感理解的持续迭代，语音 AI 可能很快会从工具演变为“虚拟伴侣”。StepAudio 2.5 证明：我们离那一天，又近了一步。