图灵奖得主Richard Sutton：纯生成式AI无法做真正的科学发现

一句话看懂

图灵奖得主Richard Sutton认为纯生成式AI缺乏自我评估能力，无法支撑真正的科学发现，内置评估循环才是关键。

图灵奖得主、强化学习之父Richard Sutton指出，当前主流的纯生成式AI（如大型语言模型）存在一个根本性缺陷：它们无法评估自己生成的结果。Sutton认为，没有这种自我评估能力，AI就无法进行真正的科学发现——即使偶尔产生新颖想法，也会因为无法验证和积累而转瞬即逝。

Sutton以AlphaGo和AlphaProof为例，说明只有内置了评估循环的系统才能实现真正的创造性。AlphaGo通过自我对弈和价值网络不断评估棋步，AlphaProof则利用形式化验证来确认证明的正确性。这些系统不是简单地生成内容，而是能够判断生成内容的好坏，并据此改进。

Sutton的观点对当前以生成式AI为主流的研究方向提出了挑战。他认为，如果AI不能像科学家一样提出假设、设计实验、评估结果并迭代，那么它充其量只是一个高级的模仿工具，而非科学发现引擎。

Sutton的观点对中文AI圈有直接启示。目前国内大模型竞争集中在生成能力——谁能写更长的文章、生成更逼真的图片、回答更流畅。但Sutton指出，真正的科学发现需要的是评估能力，而非生成能力。

对中文用户而言，这意味着：

科研应用受限：用ChatGPT或国产大模型辅助写论文、做文献综述没问题，但指望它们独立发现新知识不现实。国内科研人员应把AI当作“生成假设”的工具，而非“验证假设”的工具。
国产模型差距：DeepSeek、Kimi、智谱等模型在生成能力上已接近GPT-4，但在评估能力上几乎没有公开进展。Sutton的观点提醒我们，下一阶段竞争可能转向“评估循环”设计。
AlphaGo的启示：国内在强化学习领域有不错基础（如腾讯的围棋AI“绝艺”），但如何将评估循环迁移到通用科学发现上，仍是空白。
合规角度：如果AI无法自我评估，那么用于医疗、金融等高风险领域时，人类审核就不可或缺。国内监管要求AI生成内容可追溯、可验证，与Sutton的观点不谋而合。

中文圈目前较少讨论“AI评估能力”这个盲点，更多关注参数规模和生成质量。Sutton的批评提供了一个新视角：也许我们该少问“AI能生成什么”，多问“AI能判断什么”。

别指望ChatGPT替你发现新定律——真正的AI科学需要学会自我评判。