AI 快讯 编译自 the_decoder #行业分析#AI研究#图灵奖

图灵奖得主Richard Sutton:纯生成式AI无法做真正的科学发现

图灵奖得主Richard Sutton指出纯生成式AI的核心缺陷:无法自我评估结果。他认为没有内置评估循环,AI产生的创新转瞬即逝,无法积累。AlphaGo和AlphaProof展示了真正创造性AI需要评估能力。本文分析其对中文AI圈和科研应用的启示。

编译发布 2026/06/01 原文发布 2026/06/01

一句话看懂

图灵奖得主Richard Sutton认为纯生成式AI缺乏自我评估能力,无法支撑真正的科学发现,内置评估循环才是关键。

详细发生了什么

图灵奖得主、强化学习之父Richard Sutton指出,当前主流的纯生成式AI(如大型语言模型)存在一个根本性缺陷:它们无法评估自己生成的结果。Sutton认为,没有这种自我评估能力,AI就无法进行真正的科学发现——即使偶尔产生新颖想法,也会因为无法验证和积累而转瞬即逝。

Sutton以AlphaGo和AlphaProof为例,说明只有内置了评估循环的系统才能实现真正的创造性。AlphaGo通过自我对弈和价值网络不断评估棋步,AlphaProof则利用形式化验证来确认证明的正确性。这些系统不是简单地生成内容,而是能够判断生成内容的好坏,并据此改进。

Sutton的观点对当前以生成式AI为主流的研究方向提出了挑战。他认为,如果AI不能像科学家一样提出假设、设计实验、评估结果并迭代,那么它充其量只是一个高级的模仿工具,而非科学发现引擎。

中文圈视角

Sutton的观点对中文AI圈有直接启示。目前国内大模型竞争集中在生成能力——谁能写更长的文章、生成更逼真的图片、回答更流畅。但Sutton指出,真正的科学发现需要的是评估能力,而非生成能力。

对中文用户而言,这意味着:

  • 科研应用受限:用ChatGPT或国产大模型辅助写论文、做文献综述没问题,但指望它们独立发现新知识不现实。国内科研人员应把AI当作“生成假设”的工具,而非“验证假设”的工具。
  • 国产模型差距:DeepSeek、Kimi、智谱等模型在生成能力上已接近GPT-4,但在评估能力上几乎没有公开进展。Sutton的观点提醒我们,下一阶段竞争可能转向“评估循环”设计。
  • AlphaGo的启示:国内在强化学习领域有不错基础(如腾讯的围棋AI“绝艺”),但如何将评估循环迁移到通用科学发现上,仍是空白。
  • 合规角度:如果AI无法自我评估,那么用于医疗、金融等高风险领域时,人类审核就不可或缺。国内监管要求AI生成内容可追溯、可验证,与Sutton的观点不谋而合。

中文圈目前较少讨论“AI评估能力”这个盲点,更多关注参数规模和生成质量。Sutton的批评提供了一个新视角:也许我们该少问“AI能生成什么”,多问“AI能判断什么”。

几条值得记住的细节

  • Sutton认为纯生成式AI无法评估自身输出,导致创新无法积累。
  • AlphaGo和AlphaProof是正面例子,它们内置了评估循环。
  • 没有评估能力,AI产生的“新颖性”只是随机波动,而非科学进步。
  • 当前主流大模型(包括GPT-4、Claude等)都属于纯生成式AI范畴。
  • Sutton的观点发表于2026年6月,正值AI科学应用讨论升温之际。

一句话总结

别指望ChatGPT替你发现新定律——真正的AI科学需要学会自我评判。