AI 快讯 编译自 aws_ml_blog #AWS#SageMaker AI#OpenAI 兼容 API

Amazon SageMaker AI 端点支持 OpenAI 兼容 API,无需修改代码即可调用模型

AWS 宣布 SageMaker AI 实时推理端点支持 OpenAI 兼容 API,用户只需更改 endpoint URL 即可使用 OpenAI SDK、LangChain 等框架调用模型。本文详解 bearer token 认证、多模型部署及安全最佳实践,对国内用户意味着更低门槛的私有化部署。

编译发布 2026/05/24 原文发布 2026/05/20

一句话看懂

Amazon SageMaker AI 端点现在原生支持 OpenAI 兼容 API,用户只需改一行 URL 就能用现有 OpenAI SDK 调用自托管模型。

详细发生了什么

2026年5月20日,AWS 宣布 Amazon SageMaker AI 实时推理端点新增 OpenAI 兼容 API 支持。这意味着,如果你已经在使用 OpenAI SDK、LangChain 或 Strands Agents 等框架,现在只需将 endpoint URL 改为 SageMaker 端点地址,即可直接调用部署在 SageMaker 上的模型,无需编写自定义客户端、无需 SigV4 签名包装、无需重写代码。

SageMaker 端点暴露 /openai/v1 路径,接受 Chat Completions 请求并原样返回响应(包括 streaming)。该功能默认对所有端点和 inference components 开启。同时,SageMaker 引入了 bearer token 认证机制,用户可以从 AWS 凭证生成最长12小时有效的令牌,直接用于 OpenAI 客户端。

典型用例包括:在自有基础设施上运行 agentic 工作流(如 Strands Agents、LangChain)、多模型统一托管(如 Llama + 微调 Mistral + 分类模型)、以及无代码变更地服务微调模型。

中文圈视角

对国内用户来说,这个更新最大的意义在于降低了私有化部署 LLM 的工程门槛。过去,要在 AWS 上自建推理服务,通常需要编写适配层(如 FastAPI 包装 OpenAI 协议),或者使用第三方网关。现在,SageMaker 原生支持 OpenAI 协议,意味着国内企业可以:

  • 直接复用现有代码:如果团队已经基于 OpenAI SDK 开发了应用(如 AI 客服、代码助手),只需修改 endpoint URL 和 API key(换成 bearer token),即可将模型切换到自部署的 Llama、Qwen 或微调模型上,无需改动业务逻辑。
  • 与国产模型生态结合:国内流行的开源模型如 Qwen2.5、DeepSeek-V3、Yi 等都可以部署在 SageMaker 上,并通过同一套 OpenAI 接口调用。对于需要数据合规的企业(如金融、医疗),这提供了一条“模型私有化 + 接口标准化”的路径。
  • 对比国内云厂商:阿里云 PAI、华为云 ModelArts 等平台虽然也提供模型部署,但多数仍要求使用各自 SDK 或 RESTful API,缺乏统一的 OpenAI 兼容层。SageMaker 这一步可能倒逼国内云厂商跟进,降低用户迁移成本。

不过需要注意:SageMaker 的 bearer token 依赖 AWS IAM 权限体系,国内用户需要先解决 AWS 账号和网络访问问题(可能需要 VPN 或专线)。对于完全内网环境,仍需自行搭建网关。

几条值得记住的细节

  • Bearer token 最长12小时有效,可通过 expiry 参数设置1秒到12小时,生成过程完全本地,不涉及网络调用。
  • 支持 streaming:OpenAI 兼容的 streaming 响应(Server-Sent Events)开箱即用。
  • 多模型托管:通过 inference components 可在同一端点部署多个模型,各自分配资源,统一通过 OpenAI SDK 调用。
  • IAM 权限最小化:官方建议仅授予 sagemaker:InvokeEndpointsagemaker:CallWithBearerToken 权限,并限制 endpoint ARN,避免使用 AdministratorAccess 等宽松策略。
  • 配套 notebook 已发布:AWS 提供了包含部署和调用的完整示例代码,可在 GitHub 上获取。

一句话总结

如果你在用 OpenAI SDK 且想私有化部署模型,SageMaker 现在是最省事的托管方案——改个 URL 就行。