Amazon SageMaker AI 端点支持 OpenAI 兼容 API,无需修改代码即可调用模型
AWS 宣布 SageMaker AI 实时推理端点支持 OpenAI 兼容 API,用户只需更改 endpoint URL 即可使用 OpenAI SDK、LangChain 等框架调用模型。本文详解 bearer token 认证、多模型部署及安全最佳实践,对国内用户意味着更低门槛的私有化部署。
一句话看懂
Amazon SageMaker AI 端点现在原生支持 OpenAI 兼容 API,用户只需改一行 URL 就能用现有 OpenAI SDK 调用自托管模型。
详细发生了什么
2026年5月20日,AWS 宣布 Amazon SageMaker AI 实时推理端点新增 OpenAI 兼容 API 支持。这意味着,如果你已经在使用 OpenAI SDK、LangChain 或 Strands Agents 等框架,现在只需将 endpoint URL 改为 SageMaker 端点地址,即可直接调用部署在 SageMaker 上的模型,无需编写自定义客户端、无需 SigV4 签名包装、无需重写代码。
SageMaker 端点暴露 /openai/v1 路径,接受 Chat Completions 请求并原样返回响应(包括 streaming)。该功能默认对所有端点和 inference components 开启。同时,SageMaker 引入了 bearer token 认证机制,用户可以从 AWS 凭证生成最长12小时有效的令牌,直接用于 OpenAI 客户端。
典型用例包括:在自有基础设施上运行 agentic 工作流(如 Strands Agents、LangChain)、多模型统一托管(如 Llama + 微调 Mistral + 分类模型)、以及无代码变更地服务微调模型。
中文圈视角
对国内用户来说,这个更新最大的意义在于降低了私有化部署 LLM 的工程门槛。过去,要在 AWS 上自建推理服务,通常需要编写适配层(如 FastAPI 包装 OpenAI 协议),或者使用第三方网关。现在,SageMaker 原生支持 OpenAI 协议,意味着国内企业可以:
- 直接复用现有代码:如果团队已经基于 OpenAI SDK 开发了应用(如 AI 客服、代码助手),只需修改 endpoint URL 和 API key(换成 bearer token),即可将模型切换到自部署的 Llama、Qwen 或微调模型上,无需改动业务逻辑。
- 与国产模型生态结合:国内流行的开源模型如 Qwen2.5、DeepSeek-V3、Yi 等都可以部署在 SageMaker 上,并通过同一套 OpenAI 接口调用。对于需要数据合规的企业(如金融、医疗),这提供了一条“模型私有化 + 接口标准化”的路径。
- 对比国内云厂商:阿里云 PAI、华为云 ModelArts 等平台虽然也提供模型部署,但多数仍要求使用各自 SDK 或 RESTful API,缺乏统一的 OpenAI 兼容层。SageMaker 这一步可能倒逼国内云厂商跟进,降低用户迁移成本。
不过需要注意:SageMaker 的 bearer token 依赖 AWS IAM 权限体系,国内用户需要先解决 AWS 账号和网络访问问题(可能需要 VPN 或专线)。对于完全内网环境,仍需自行搭建网关。
几条值得记住的细节
- Bearer token 最长12小时有效,可通过
expiry参数设置1秒到12小时,生成过程完全本地,不涉及网络调用。 - 支持 streaming:OpenAI 兼容的 streaming 响应(Server-Sent Events)开箱即用。
- 多模型托管:通过 inference components 可在同一端点部署多个模型,各自分配资源,统一通过 OpenAI SDK 调用。
- IAM 权限最小化:官方建议仅授予
sagemaker:InvokeEndpoint和sagemaker:CallWithBearerToken权限,并限制 endpoint ARN,避免使用 AdministratorAccess 等宽松策略。 - 配套 notebook 已发布:AWS 提供了包含部署和调用的完整示例代码,可在 GitHub 上获取。
一句话总结
如果你在用 OpenAI SDK 且想私有化部署模型,SageMaker 现在是最省事的托管方案——改个 URL 就行。