Claude Opus 4.8 发布：Anthropic 坦诚升级，重点提升模型“诚实度”与减少幻觉

一句话看懂

Anthropic 发布 Claude Opus 4.8，官方罕见坦诚称其为“适度改进”，核心亮点是模型诚实度大幅提升，幻觉率降低约4倍。

详细发生了什么

Anthropic 于 5 月 28 日发布了 Claude Opus 4.8。官方公告中罕见地使用“适度但切实的改进”来描述这次更新，并承认“仍有更多工作要做”——这种坦诚在 AI 实验室中并不多见。

最值得关注的改进是模型的“诚实度”。Anthropic 表示，Opus 4.8 经过训练，更倾向于在不确定时主动标注不确定性，而不是做出无法支持的断言。早期测试者报告，该模型更可能指出自己工作中的疑点，且不太可能做出无根据的声明。官方评估显示，Opus 4.8 在代码中遗漏缺陷的可能性比前代低约 4 倍。

系统卡进一步指出，在所有六款模型的基准测试中，Opus 4.8 的错误率最低——这是衡量事实性幻觉的最直接指标。它主要通过“弃权”（即对不确定的问题不回答）而非答对更多问题来实现这一结果。

定价方面与 Opus 4.5/4.6/4.7 保持一致：输入 $5/百万 token，输出 $25/百万 token。“快速模式”价格翻倍。其他技术规格（如 context window）未做重大调整。

中文圈视角

这次更新对中文用户意味着几个层面的影响：

可用性方面：Claude Opus 系列目前仍需要通过 Anthropic 官方 API 或特定合作平台访问，国内用户通常需要梯子。价格与 GPT-4o 相当（GPT-4o 输入 $5/百万 token，输出 $15/百万 token），但输出端更贵。对于预算有限的个人开发者，可能更倾向于使用国产模型如 DeepSeek-V3 或 Kimi 的 API，后者价格低一个数量级。

平替对比：国产模型在“诚实度”方面尚未有类似明确宣传。DeepSeek 和智谱 GLM 系列更强调推理能力和长上下文，但主动承认不确定性的机制并不突出。如果 Opus 4.8 的“诚实”特性在实际使用中表现显著，可能会成为差异化优势，尤其适合需要高可靠性的场景（如代码审查、法律文书、医疗建议）。

中文场景影响：对于中文写作、编程辅助等场景，Opus 4.8 的诚实度提升意味着更少的“幻觉”错误。例如，在代码审查中，模型更可能指出自己不确定的部分，而不是盲目给出错误建议。但需要注意，Anthropic 的评估主要基于英文基准，中文场景下的表现有待验证。

监管与合规：Anthropic 强调“诚实”训练，这在一定程度上符合国内对 AI 内容安全的要求——减少虚假信息输出。但数据出境问题依然存在：使用海外 API 需注意合规风险。

几条值得记住的细节

定价不变：输入 $5/百万 token，输出 $25/百万 token，快速模式翻倍。
诚实度提升：在基准测试中，Opus 4.8 的错误率是所有六款模型中最低的。
弃权策略：模型主要通过主动放弃回答不确定的问题来降低幻觉，而非提高正确率。
代码缺陷减少：相比前代，Opus 4.8 在代码中遗漏缺陷的可能性降低约 4 倍。
官方坦诚：Anthropic 明确表示这是“适度改进”，并承认未来需要更低成本的模型。

一句话总结

Claude Opus 4.8 不是大版本飞跃，但“更诚实”的 AI 对需要高可靠性的中文用户来说，是一个值得关注的进步。