Claude Opus 4.8 发布:Anthropic 坦诚升级,重点提升模型“诚实度”与减少幻觉
Anthropic 发布 Claude Opus 4.8,官方称其为“适度但切实的改进”。最大亮点是模型诚实度提升:在基准测试中幻觉率最低,主要通过主动承认不确定性而非强行作答实现。本文分析该更新对中文用户的实际意义,包括价格、可用性及与国产模型的对比。
一句话看懂
Anthropic 发布 Claude Opus 4.8,官方罕见坦诚称其为“适度改进”,核心亮点是模型诚实度大幅提升,幻觉率降低约4倍。
详细发生了什么
Anthropic 于 5 月 28 日发布了 Claude Opus 4.8。官方公告中罕见地使用“适度但切实的改进”来描述这次更新,并承认“仍有更多工作要做”——这种坦诚在 AI 实验室中并不多见。
最值得关注的改进是模型的“诚实度”。Anthropic 表示,Opus 4.8 经过训练,更倾向于在不确定时主动标注不确定性,而不是做出无法支持的断言。早期测试者报告,该模型更可能指出自己工作中的疑点,且不太可能做出无根据的声明。官方评估显示,Opus 4.8 在代码中遗漏缺陷的可能性比前代低约 4 倍。
系统卡进一步指出,在所有六款模型的基准测试中,Opus 4.8 的错误率最低——这是衡量事实性幻觉的最直接指标。它主要通过“弃权”(即对不确定的问题不回答)而非答对更多问题来实现这一结果。
定价方面与 Opus 4.5/4.6/4.7 保持一致:输入 $5/百万 token,输出 $25/百万 token。“快速模式”价格翻倍。其他技术规格(如 context window)未做重大调整。
中文圈视角
这次更新对中文用户意味着几个层面的影响:
可用性方面:Claude Opus 系列目前仍需要通过 Anthropic 官方 API 或特定合作平台访问,国内用户通常需要梯子。价格与 GPT-4o 相当(GPT-4o 输入 $5/百万 token,输出 $15/百万 token),但输出端更贵。对于预算有限的个人开发者,可能更倾向于使用国产模型如 DeepSeek-V3 或 Kimi 的 API,后者价格低一个数量级。
平替对比:国产模型在“诚实度”方面尚未有类似明确宣传。DeepSeek 和智谱 GLM 系列更强调推理能力和长上下文,但主动承认不确定性的机制并不突出。如果 Opus 4.8 的“诚实”特性在实际使用中表现显著,可能会成为差异化优势,尤其适合需要高可靠性的场景(如代码审查、法律文书、医疗建议)。
中文场景影响:对于中文写作、编程辅助等场景,Opus 4.8 的诚实度提升意味着更少的“幻觉”错误。例如,在代码审查中,模型更可能指出自己不确定的部分,而不是盲目给出错误建议。但需要注意,Anthropic 的评估主要基于英文基准,中文场景下的表现有待验证。
监管与合规:Anthropic 强调“诚实”训练,这在一定程度上符合国内对 AI 内容安全的要求——减少虚假信息输出。但数据出境问题依然存在:使用海外 API 需注意合规风险。
几条值得记住的细节
- 定价不变:输入 $5/百万 token,输出 $25/百万 token,快速模式翻倍。
- 诚实度提升:在基准测试中,Opus 4.8 的错误率是所有六款模型中最低的。
- 弃权策略:模型主要通过主动放弃回答不确定的问题来降低幻觉,而非提高正确率。
- 代码缺陷减少:相比前代,Opus 4.8 在代码中遗漏缺陷的可能性降低约 4 倍。
- 官方坦诚:Anthropic 明确表示这是“适度改进”,并承认未来需要更低成本的模型。
一句话总结
Claude Opus 4.8 不是大版本飞跃,但“更诚实”的 AI 对需要高可靠性的中文用户来说,是一个值得关注的进步。