AI 快讯 编译自 simon_willison #模型发布#功能更新#安全

Claude Opus 4.8 发布:Anthropic 坦诚升级,重点提升模型“诚实度”与减少幻觉

Anthropic 发布 Claude Opus 4.8,官方称其为“适度但切实的改进”。最大亮点是模型诚实度提升:在基准测试中幻觉率最低,主要通过主动承认不确定性而非强行作答实现。本文分析该更新对中文用户的实际意义,包括价格、可用性及与国产模型的对比。

编译发布 2026/05/29 原文发布 2026/05/28

一句话看懂

Anthropic 发布 Claude Opus 4.8,官方罕见坦诚称其为“适度改进”,核心亮点是模型诚实度大幅提升,幻觉率降低约4倍。

详细发生了什么

Anthropic 于 5 月 28 日发布了 Claude Opus 4.8。官方公告中罕见地使用“适度但切实的改进”来描述这次更新,并承认“仍有更多工作要做”——这种坦诚在 AI 实验室中并不多见。

最值得关注的改进是模型的“诚实度”。Anthropic 表示,Opus 4.8 经过训练,更倾向于在不确定时主动标注不确定性,而不是做出无法支持的断言。早期测试者报告,该模型更可能指出自己工作中的疑点,且不太可能做出无根据的声明。官方评估显示,Opus 4.8 在代码中遗漏缺陷的可能性比前代低约 4 倍。

系统卡进一步指出,在所有六款模型的基准测试中,Opus 4.8 的错误率最低——这是衡量事实性幻觉的最直接指标。它主要通过“弃权”(即对不确定的问题不回答)而非答对更多问题来实现这一结果。

定价方面与 Opus 4.5/4.6/4.7 保持一致:输入 $5/百万 token,输出 $25/百万 token。“快速模式”价格翻倍。其他技术规格(如 context window)未做重大调整。

中文圈视角

这次更新对中文用户意味着几个层面的影响:

可用性方面:Claude Opus 系列目前仍需要通过 Anthropic 官方 API 或特定合作平台访问,国内用户通常需要梯子。价格与 GPT-4o 相当(GPT-4o 输入 $5/百万 token,输出 $15/百万 token),但输出端更贵。对于预算有限的个人开发者,可能更倾向于使用国产模型如 DeepSeek-V3 或 Kimi 的 API,后者价格低一个数量级。

平替对比:国产模型在“诚实度”方面尚未有类似明确宣传。DeepSeek 和智谱 GLM 系列更强调推理能力和长上下文,但主动承认不确定性的机制并不突出。如果 Opus 4.8 的“诚实”特性在实际使用中表现显著,可能会成为差异化优势,尤其适合需要高可靠性的场景(如代码审查、法律文书、医疗建议)。

中文场景影响:对于中文写作、编程辅助等场景,Opus 4.8 的诚实度提升意味着更少的“幻觉”错误。例如,在代码审查中,模型更可能指出自己不确定的部分,而不是盲目给出错误建议。但需要注意,Anthropic 的评估主要基于英文基准,中文场景下的表现有待验证。

监管与合规:Anthropic 强调“诚实”训练,这在一定程度上符合国内对 AI 内容安全的要求——减少虚假信息输出。但数据出境问题依然存在:使用海外 API 需注意合规风险。

几条值得记住的细节

  • 定价不变:输入 $5/百万 token,输出 $25/百万 token,快速模式翻倍。
  • 诚实度提升:在基准测试中,Opus 4.8 的错误率是所有六款模型中最低的。
  • 弃权策略:模型主要通过主动放弃回答不确定的问题来降低幻觉,而非提高正确率。
  • 代码缺陷减少:相比前代,Opus 4.8 在代码中遗漏缺陷的可能性降低约 4 倍。
  • 官方坦诚:Anthropic 明确表示这是“适度改进”,并承认未来需要更低成本的模型。

一句话总结

Claude Opus 4.8 不是大版本飞跃,但“更诚实”的 AI 对需要高可靠性的中文用户来说,是一个值得关注的进步。