阶跃星辰发布StepAudio 2.5 Realtime:端到端实时语音模型,角色扮演RLHF与副语言理解领先
上海AI实验室阶跃星辰推出StepAudio 2.5 Realtime,一款端到端实时语音大模型,支持中文和英文,通过WebSocket API调用。模型在2026年4月五项基准测试中均排名第一,副语言理解得分82.18,能感知语气、语速、情绪等非语言信息。本文详解其技术架构、基准表现及对中文用户的实际价值。
一句话看懂
阶跃星辰发布StepAudio 2.5 Realtime,一款端到端实时语音大模型,通过角色扮演专用RLHF和百万级人格数据增强,在五项基准测试中均获第一,副语言理解能力突出。
详细发生了什么
2026年5月,上海AI实验室阶跃星辰(StepFun)发布了StepAudio 2.5 Realtime。这是一款端到端实时语音大模型,支持中文和英文,通过WebSocket API(wss://api.stepfun.com/v1/realtime,模型ID:step-2.5-realtime)提供实时语音交互能力。与传统的流水线式语音系统(将语音识别、推理、合成分离)不同,该模型采用统一的端到端架构,音频输入直接输出音频。
模型的核心技术包括三大支柱:
- 百万级人格数据增强:从1万多个高质量原生人格出发,通过算法扩展构建百万级人格特征矩阵,结合数百万真实对话样本训练,确保在长尾话题上的稳定表现。
- 角色扮演专用RLHF:针对对话中“角色偏离”(OOC)问题,专门使用RLHF(基于人类反馈的强化学习)优化人格一致性,使模型在角色扮演场景中保持稳定。
- 统一语音理解与生成:继承StepAudio 2.5 TTS能力,通过强化学习深度融合语音理解与生成,实现全局场景级语调设置和句内细节雕琢。
在副语言理解方面,模型能分析语气、语速、停顿、叹息、笑声等非语言信息,感知用户情绪和意图,例如从低沉语调识别疲劳,从快速语速识别沮丧。基准测试中,StepAudio 2.5 Realtime在2026年4月的五项评估中均排名第一:人类评价(主观)80.41、通用对话(客观)86.36、汽车场景(客观)84.80、口语问答(涵盖11项音频理解任务)79.80、副语言理解82.18。
中文圈视角
对中文用户来说,StepAudio 2.5 Realtime的发布有几个值得关注的要点:
1. 国内可用性高:阶跃星辰是上海本土团队,模型原生支持中文,API通过国内服务器访问,无需额外网络工具。相比OpenAI的实时语音API(需海外信用卡且延迟较高),StepAudio在中文场景的响应速度和合规性上更有优势。目前已有类似角色扮演、情感陪伴、智能客服等场景的国内开发者开始测试。
2. 国产同类对比:国内语音AI领域,百度、阿里、腾讯均有语音合成和识别产品,但端到端实时语音大模型且具备副语言理解能力的,StepAudio 2.5 Realtime目前较为领先。与智谱的GLM系列、DeepSeek的文本模型相比,StepAudio在语音模态上更专注,尤其适合需要情感交互的垂直场景。不过,其角色扮演RLHF的稳定性仍需更多第三方评测验证。
3. 中文场景的独特价值:中文语音交互中,语气、语调、停顿等副语言信息对理解意图至关重要(例如“好吧”的不同语调可能表示同意或无奈)。StepAudio的副语言理解能力在中文客服、在线教育、心理辅导等场景有巨大潜力。但需注意,模型目前仅支持中文和英文,多语言扩展尚未公布。
4. 监管与合规:作为国内AI产品,StepAudio需遵守《生成式人工智能服务管理暂行办法》。其角色扮演功能可能涉及内容安全审查,尤其是涉及敏感人格或场景时。开发者需关注API使用条款中的内容过滤机制。
几条值得记住的细节
- API接入方式:通过WebSocket连接,端点wss://api.stepfun.com/v1/realtime,模型字符串step-2.5-realtime。
- 基准成绩:2026年4月五项测试均第一,其中副语言理解82.18分,人类评价80.41分。
- 核心创新:百万级人格数据增强(从1万+种子人格扩展)和角色扮演专用RLHF,解决角色偏离问题。
- 副语言能力:能感知语速、情绪、年龄等声学特征,非仅依赖文本转录。
- 语言支持:当前仅支持中文和英文,未提及多语言扩展计划。
一句话总结
StepAudio 2.5 Realtime为中文语音AI带来端到端实时交互和副语言理解能力,角色扮演场景的稳定性值得国内开发者和内容创作者关注。