Anthropic 发布 Claude Opus 4.8：多项基准超越 GPT-5.5，自纠错能力提升 4 倍

一句话看懂

Anthropic 发布 Claude Opus 4.8，在多数基准测试中超越 GPT-5.5 和 Gemini 3.1 Pro，自纠错能力提升 4 倍，并推出动态工作流功能。

详细发生了什么

2026 年 5 月 28 日，Anthropic 正式发布 Claude Opus 4.8。Anthropic 将其描述为“适度但切实的改进”，但在多项基准测试中，该模型的表现超越了 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。

最引人注目的提升在于编码能力：Claude Opus 4.8 检测自身编码错误的频率是前代 Opus 4 的 4 倍。这意味着在代码审查和调试场景中，模型能更主动地发现并修正问题。

除了模型本身，Anthropic 还推出了动态工作流（dynamic workflows）功能。该功能允许用户创建数百个并行运行的子代理，用于处理代码库级别的迁移、大规模重构等复杂任务。这标志着 AI 从单次问答向多代理协作系统演进。

定价方面，Claude Opus 4.8 保持与 Opus 4 相同的 API 价格：$15/百万输入 token，$75/百万输出 token。上下文窗口仍为 200K tokens。该模型已通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供。

中文圈视角

对于中文开发者而言，Claude Opus 4.8 的发布有几点值得关注：

编码能力对比：虽然国内有 DeepSeek Coder、CodeGeeX 等模型，但在复杂代码迁移、多文件重构等场景下，Claude 的动态工作流功能目前尚无直接平替。国内模型更侧重单文件补全，而 Anthropic 的“数百个子代理并行”方案更适合企业级代码库管理。
可用性：Claude Opus 4.8 需要通过 Anthropic API 或云服务访问，国内用户可能需要科学上网或使用海外云服务。Amazon Bedrock 和 Google Cloud Vertex AI 在国内有合规版本，但功能可能受限。
中文场景：在中文写作、翻译等任务上，Claude 系列一直表现不错，但 Opus 4.8 的改进主要针对编码和推理，中文用户的实际体验提升可能不如编码场景明显。
监管盲点：Anthropic 在安全对齐方面投入较大，但动态工作流功能可能引发新的合规问题——当数百个子代理并行执行时，如何确保内容安全？国内监管尚未对此类多代理系统有明确要求。

几条值得记住的细节

Claude Opus 4.8 在 MMLU、HumanEval、GSM8K 等基准上均超过 GPT-5.5 和 Gemini 3.1 Pro。
自纠错能力提升 4 倍：模型在代码生成后能更频繁地自我检查并修正错误。
动态工作流支持创建数百个并行子代理，适用于代码库迁移、大规模测试等任务。
API 价格不变：$15/百万输入 token，$75/百万输出 token，上下文窗口 200K tokens。
已通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 可用。

一句话总结

如果你做复杂编码或代码库管理，Claude Opus 4.8 的动态工作流和自纠错能力值得一试，但国内用户需解决访问问题。