AI 快讯
编译自 aws_ml_blog #语音智能体#Amazon Nova Sonic#架构设计
Amazon Nova Sonic 语音智能体设计:多智能体、工具调用与会话分割架构解析
本文介绍如何利用 Amazon Nova Sonic、Bedrock AgentCore 和 Strands BidiAgent 构建可扩展的语音智能体。详解三种架构模式:工具调用、子智能体(Agent-as-Tool)和会话分割,并给出延迟优化最佳实践。适合 AWS 开发者与语音 AI 架构师阅读。
一句话看懂
AWS 发布基于 Nova Sonic 的语音智能体设计指南,提出三种可扩展架构模式:工具直调、子智能体代理和会话分割,帮助开发者构建低延迟、可维护的语音交互系统。
详细发生了什么
AWS 官方博客发布了一篇技术深度文章,由 Lana Zhang 撰写,详细介绍了如何使用 Amazon Nova Sonic、Amazon Bedrock AgentCore 和 Strands BidiAgent 构建可扩展的语音智能体。文章核心是三种架构模式:
- 工具直调(AgentCore Gateway):Nova Sonic 直接调用 MCP 工具,无中间推理层,延迟最低,适合简单查询。
- 子智能体(Agent-as-Tool):将业务逻辑封装为独立智能体,每个子智能体拥有自己的模型、系统提示和工具,可通过本地进程或远程 A2A 协议调用,适合复杂工作流。
- 会话分割(Session Segmentation):隔离不同会话的提示词、内存和权限,确保安全边界。
文章还介绍了 Strands Agents 开源框架的 BidiAgent 类,它管理双向流生命周期、路由工具调用和处理会话管理。所有示例代码已发布在 GitHub 仓库。
中文圈视角
对于国内开发者,这篇文章的价值在于架构思路而非具体实现。Amazon Nova Sonic 目前在国内无法直接使用(需要 AWS 海外区域),但架构模式具有通用性:
- 平替方案:国内类似产品如百度智能云的语音交互、阿里云的语音 AI 服务,或开源方案如 Coqui TTS + Rasa 对话系统,可以参考其多智能体拆分思路。
- 国产模型对比:国内大模型厂商(如 DeepSeek、Kimi)尚未推出专门的语音到语音模型,但 Nova Sonic 的“工具直调+子智能体”模式可应用于任何支持 function calling 的模型。
- 场景落地:中文客服场景(银行、保险、电商)对延迟和安全性要求极高,会话分割模式尤其适合需要隔离用户数据的场景。
- 监管盲点:国内对语音交互的数据出境和内容安全有严格规定,使用 AWS 服务需注意合规。文章未提及的“中文语音识别准确率”和“方言支持”是实际部署中的关键挑战。
几条值得记住的细节
- Nova Sonic 模型 ID 为
amazon.nova-2-sonic-v1:0,支持实时语音到语音对话。 - AgentCore Gateway 使用 MCP 协议托管工具,通过 Gateway ARN 连接,延迟最低。
- 子智能体可通过本地
@tool包装(无网络跳转)或远程 A2A 协议(跨框架互操作)实现。 - Strands Agents 开源框架同时支持 MCP(工具)和 A2A(智能体间通信)两种协议。
- 会话隔离采用 microVM 级别,避免“吵闹邻居”延迟尖峰。
一句话总结
构建语音智能体时,优先用工具直调处理简单任务,用子智能体拆分复杂逻辑,用会话分割保证安全——这套架构思路同样适用于国内云平台。