阶跃星辰发布StepAudio 2.5 Realtime：端到端实时语音模型，角色扮演RLHF与副语言理解领先

一句话看懂

阶跃星辰发布StepAudio 2.5 Realtime，一款端到端实时语音大模型，通过角色扮演专用RLHF和百万级人格数据增强，在五项基准测试中均获第一，副语言理解能力突出。

详细发生了什么

2026年5月，上海AI实验室阶跃星辰（StepFun）发布了StepAudio 2.5 Realtime。这是一款端到端实时语音大模型，支持中文和英文，通过WebSocket API（wss://api.stepfun.com/v1/realtime，模型ID：step-2.5-realtime）提供实时语音交互能力。与传统的流水线式语音系统（将语音识别、推理、合成分离）不同，该模型采用统一的端到端架构，音频输入直接输出音频。

模型的核心技术包括三大支柱：

百万级人格数据增强：从1万多个高质量原生人格出发，通过算法扩展构建百万级人格特征矩阵，结合数百万真实对话样本训练，确保在长尾话题上的稳定表现。
角色扮演专用RLHF：针对对话中“角色偏离”（OOC）问题，专门使用RLHF（基于人类反馈的强化学习）优化人格一致性，使模型在角色扮演场景中保持稳定。
统一语音理解与生成：继承StepAudio 2.5 TTS能力，通过强化学习深度融合语音理解与生成，实现全局场景级语调设置和句内细节雕琢。

在副语言理解方面，模型能分析语气、语速、停顿、叹息、笑声等非语言信息，感知用户情绪和意图，例如从低沉语调识别疲劳，从快速语速识别沮丧。基准测试中，StepAudio 2.5 Realtime在2026年4月的五项评估中均排名第一：人类评价（主观）80.41、通用对话（客观）86.36、汽车场景（客观）84.80、口语问答（涵盖11项音频理解任务）79.80、副语言理解82.18。

中文圈视角

对中文用户来说，StepAudio 2.5 Realtime的发布有几个值得关注的要点：

1. 国内可用性高：阶跃星辰是上海本土团队，模型原生支持中文，API通过国内服务器访问，无需额外网络工具。相比OpenAI的实时语音API（需海外信用卡且延迟较高），StepAudio在中文场景的响应速度和合规性上更有优势。目前已有类似角色扮演、情感陪伴、智能客服等场景的国内开发者开始测试。

2. 国产同类对比：国内语音AI领域，百度、阿里、腾讯均有语音合成和识别产品，但端到端实时语音大模型且具备副语言理解能力的，StepAudio 2.5 Realtime目前较为领先。与智谱的GLM系列、DeepSeek的文本模型相比，StepAudio在语音模态上更专注，尤其适合需要情感交互的垂直场景。不过，其角色扮演RLHF的稳定性仍需更多第三方评测验证。

3. 中文场景的独特价值：中文语音交互中，语气、语调、停顿等副语言信息对理解意图至关重要（例如“好吧”的不同语调可能表示同意或无奈）。StepAudio的副语言理解能力在中文客服、在线教育、心理辅导等场景有巨大潜力。但需注意，模型目前仅支持中文和英文，多语言扩展尚未公布。

4. 监管与合规：作为国内AI产品，StepAudio需遵守《生成式人工智能服务管理暂行办法》。其角色扮演功能可能涉及内容安全审查，尤其是涉及敏感人格或场景时。开发者需关注API使用条款中的内容过滤机制。

几条值得记住的细节

API接入方式：通过WebSocket连接，端点wss://api.stepfun.com/v1/realtime，模型字符串step-2.5-realtime。
基准成绩：2026年4月五项测试均第一，其中副语言理解82.18分，人类评价80.41分。
核心创新：百万级人格数据增强（从1万+种子人格扩展）和角色扮演专用RLHF，解决角色偏离问题。
副语言能力：能感知语速、情绪、年龄等声学特征，非仅依赖文本转录。
语言支持：当前仅支持中文和英文，未提及多语言扩展计划。

一句话总结

StepAudio 2.5 Realtime为中文语音AI带来端到端实时交互和副语言理解能力，角色扮演场景的稳定性值得国内开发者和内容创作者关注。