Home/AI for Science/AI 服务 AI —— 自主 ML 研究与算法发现
中文English

AI 服务 AI —— 自主 ML 研究与算法发现

ai-for-science 的自反情形:用 AI/ML 加速 ML 研究本身 —— 发现算法、运行实验,以及(炒作前沿)"设计下一个模型"。

上级: ai-for-science · 同级: aifs-mathematics

这是 AI 既是工具又是研究对象的一页。它分为三个需要诚实区分的层级:(1) 狭义算法发现 —— 真实、可验证、已发表的成果;(2) 自主"AI 科学家" —— 流水线令人印象深刻,但其产出的质量存在争议;(3) 递归自我改进 —— 大体仍是思想实验,实证支撑薄弱。把这三层分开正是这门学科的全部要义;把它们混为一谈正是炒作滋生之处。


1. 由 AI 完成的算法发现(证据最扎实)

最站得住脚的"AI 改进 AI/计算"成果,都来自能产出程序或构造、且这些产出可被独立验证的搜索系统。验证正是其可信的根源:一个发现出的对象,要么正确地完成矩阵乘法,要么不能。

AlphaTensor(2022)

DeepMind 把矩阵乘法建模为单人游戏("TensorGame"),训练一个 AlphaZero 风格的强化学习智能体来寻找低秩张量分解 [1]。它重新发现了许多已知方案,并且值得注意地——在有限域(mod 2)中首次改进了 4×4 矩阵的 Strassen 两层算法(自 1969 年以来首次),还产出了在特定 GPU/TPU 上快 10–20% 的硬件适配方案 [1][2]。注意: 标题里的 4×4"mod-2"结果是在某个特定域上成立,并非普遍性改进;很多实际加速是硬件特定的。

AlphaDev(2023)

一个直接在汇编指令层操作的强化学习智能体,通过两个新的"swap"与"copy"操作,为定长排序(sort-3/4/5)找到了更短的例程,并为 9–16 字节输入找到了更快的哈希 [3][4]。这些成果是真实的,并已合入 LLVM libc++ 标准库——这是其排序例程十多年来的首次变更,也是首次源自 AI 发现的算法 [4]。注意: 仅在极短的定长序列上收益巨大(极小输入约 70%,超过 25 万元素时约 1.7%)[4];这是对热点叶子例程的微优化,并非新的渐近复杂度类。

FunSearch(2023)

首个把大语言模型与评估器 + 进化循环配对、并在开放问题上产出结果的系统:改进了cap set(帽集)问题的构造(约 20 年来对渐近下界的最大改进),并为在线装箱找到更好的启发式 [5][6]。关键设计思想:进化生成解的程序,而非解本身——这使输出可解释、可验证 [5]。注意: 适用于具有廉价、精确评估器的狭窄问题;LLM 负责提议,验证器负责裁决。

AlphaEvolve(2025)

当前的旗舰:一个由 Gemini 驱动的进化式编码智能体,在评估器反馈下对整个代码文件进行变异 [7][8]。其报告的成果横跨实际基础设施(通过数据中心调度启发式收回了约 0.7% 的 Google 全球算力、一项 Verilog/TPU 算术电路化简、对某 Gemini 训练 kernel 约 23% 的加速)与数学(应用于 50+ 个开放问题;约 75% 重新发现了已知最优构造,约 20% 改进了最优解)[8][7]。两个被广泛引用的具体结果:更密的 11 维**接触数(kissing number)**配置(592 → 593),以及对 Erdős 最小重叠界的微小改进 [8][9]。

有争议的标题。 AlphaEvolve "4×4 复数矩阵 48 次标量乘法、56 年来首次超越 Strassen"是本页被过度引用最严重的说法。批评者指出,Winograd(1967)就已为 4×4 达到 48 次乘法,而 Waksman 的 1970 年算法在可除以 2 的交换环上仅用 46 次 [10][9]。诚实的表述是:AlphaEvolve 的方案在非交换但可除以 2的设定下确实是改进,但它不是一个干净的"打破 56 年纪录"的故事 [9][10]。这是本模块中最重要的一条提醒。


2. 自主"AI 科学家"(流水线惊艳,质量有争议)

这些系统把假设生成 → 实验设计 → 代码执行 → 分析 → 论文撰写串成一个闭环。工程是真实的;产出的科学价值才是证据薄弱之处。

Sakana "AI Scientist"(v1,2024 → v2,2025)

v1 以约每篇 15 美元的成本端到端生成 ML 论文。v2 用**最佳优先树搜索(BFTS)**取代了线性流水线,对实验分支进行搜索,并去除了对人工编写代码模板的依赖 [11]。标志性事件:Sakana 向 ICLR 2025 一个 workshop("I Can't Believe It's Not Better")提交了三篇完全由 AI 生成的论文,其中一篇通过了同行评审——据称得分高于该 workshop 平均水平——成为首篇有据可查、通过人类评审的 AI 生成论文 [12]。Sakana 自己在正式发表前撤回了该论文,并将其定性为流程实验。

诚实的批评。 一项对 v1 的独立评估发现,约 42% 的拟议实验因代码错误失败,稿件引用中位数约 5 条(且常已过时),数篇含有幻觉性数值结果、占位文本与缺失图表 [13]。即便是 v2 那篇通过评审的论文,后来也被指出含有幻觉并夸大了新颖性。"被 workshop 接收"这一里程碑真实但范围狭窄:workshop 门槛 < 主会门槛,且"通过评审" ≠ "正确且新颖的科学"。

更广义的智能体研究浪潮

如今已形成一个"AI 协同科学家"与"研究智能体"系统的小产业(Google 的 AI co-scientist、FutureHouse、各类开源脚手架)。模式高度一致:擅长构思与样板代码,弱于严格的新颖性评估、也弱于不自欺。 约束瓶颈是评估的完整性,而非生成的吞吐量。


3. 基准测试:智能体在真实 ML 研究上到底有多强?

由于演示容易被挑选,2024–2025 年的三个基准试图用可验证的评分,对照人类基线来衡量智能体的 ML 研究能力。

基准 作者 任务 标志性结果
MLE-bench OpenAI(2024) 75 个 Kaggle ML 工程竞赛 最佳配置(o1-preview + AIDE 脚手架)在 16.9% 的竞赛中达到至少铜牌水平 [14][15]
RE-Bench METR(2024) 7 个开放式 ML 研发环境,对照 61 位人类专家 2 小时预算下智能体约为人类的 4 倍;8 小时人类略胜;32 小时人类约为最强智能体的 2 倍 [16][17]
PaperBench OpenAI(2025) 从零复现 20 篇 ICML 2024 论文(8,316 个可评分子任务) 最佳智能体(Claude 3.5 Sonnet + 脚手架)平均 21.0%;在 3 篇子集上 ML 博士达 41.4%,o1 为 26.6% [18][19]

如何解读这些表。 一致的发现是:智能体又快又便宜,但会触顶——在速度占主导的短时窗里胜出,在奖励持续推理、调试与判断的长时窗里落败 [16][18]。没有一个基准显示智能体在开放式工作上能与专家研究者比肩。(分数随每一代模型快速上升,因此任何具体数字都应视为快照,而非天花板。)


4. 神经架构搜索 / AutoML —— 大体已被取代

经典 NAS(约 2017–2020 年,基于 RL 控制器或进化搜索架构)如今基本已成历史。前沿转移有两个原因:(1) 缩放定律让"更大的 Transformer + 更多数据"胜过搜出来的奇异架构;(2) 架构创新已转向人类 + LLM 辅助的组件设计(注意力变体、归一化、专家混合路由),而非盲目搜索。AutoML 在生产中以超参/流水线优化(Optuna 一类)的形式存续,也作为 §3 中驱动智能体的系统(如 AIDE)内部的脚手架而存在——而非自身的研究前沿。教训是:唯有当你拥有廉价、忠实的目标函数时,搜索才会胜过"搜索架构";缩放提供了通往能力的更廉价路径。

5. 自我改进 / 模型设计模型(保持脚踏实地)

这是思辨性最强的一层,此处尤其需要措辞精确。

真实的部分(2025–2026): LLM 已经在帮助设计自身训练的若干环节——提出数据筛选/过滤启发式、生成合成训练数据、起草奖励模型评分细则,并(通过 §1 的 AlphaEvolve)优化训练 kernel。这些都是具体、有界的贡献,其中人类仍掌控目标与验证。

有争议的部分:****"递归自我改进"(RSI)——一个模型自主把自己改写成更强的模型并复利累积。研讨会(ICLR 2026)已开始认真研究 RSI,但现存的实证循环只是在人类指导下更新提示、数据或外围代码,而非在无人参与下提升核心能力。有两个事实抵消了失控叙事:(a) 模型在对自身无外部接地的输出进行递归训练时会崩溃(《自然》2024 年有记载),因此自生成数据需要外部信号;(b) 每个被验证的循环都依赖验证器或人类来防止漂移。诚实的立场是:有用的自我改进真实且有界;而递归、无界的自我改进尚未被证实,当有人断言其即将到来时,应将其标注为炒作。


6. 谁在押注这件事 —— labs 全景

简短而怀疑地梳理一下:哪些组织的整套论题押在 §5 那个自我改进循环真能 scale 上。自动化 AI 研究(这一整页)正是它们战略的方法论核心——让 AI 在"做 AI 研究"上足够强,使进展复利累积。

  • recursive-superintelligence(RSI)—— 本页论题最纯粹的化身:据报道估值约 46.5 亿美元的初创(Richard Socher;田渊栋 / Yuandong Tian,前 Meta FAIR 强化学习/推理负责人;Tim Rocktäschel,前 DeepMind;ViT 作者 Alexey Dosovitskiy),其整个产品就是 §5 的自我改进循环——"模型造模型",截至 2026 年仍无产品,NVIDIA 与 AMD 共同投资。检验这个循环能否 scale 的最干净样本。
  • safe-superintelligence(SSI)—— Ilya Sutskever 的"直奔安全超智能",明确不做中间产品;据报道在零产品情况下以约 320 亿美元估值融资——纯押研究路径。
  • meta-superintelligence-labs(MSL)—— Meta 2025 年成立的超智能部门,由 Alexandr Wang 领衔,以 143 亿美元的 Scale AI 交易和据报道的九位数挖人包为支撑;使命是"个人超智能"。
  • 在位者 —— Google DeepMind(明确的 AGI 使命)、OpenAI(章程围绕超智能;其 Superalignment 团队 2024 年解散)、xAI 都在追同一目标。按本 wiki 的大公司规则,它们在这里不单独建产品页。

诚实的差距: 上述没有任何一家展示出超智能论题所要求的递归、无界的自我改进(见 §5)。它们切实拥有的是资本、算力、人才,以及本页编录的自动化 AI 研究工具。把"ASI"理解为一个目标和资本配置,而非已实现或即将到来的结果——本页证据支持的是有界的、有验证器把关的自我改进,仅此而已。


系统表(验证状态)

系统 发现/完成了什么 年份 是否已验证?
AlphaTensor 更快的矩阵乘张量分解;4×4 在 GF(2) 上超越 Strassen 2022 是 —— 发表于《自然》,分解可校验 [1]
AlphaDev 更短的 sort-3/4/5 汇编;更快的小数据哈希 2023 是 —— 已合入 LLVM libc++ [4]
FunSearch 新的 cap-set 构造;更优的在线装箱启发式 2023 是 —— 《自然》,构造可验证 [5]
AlphaEvolve 数据中心与 kernel 优化;50+ 数学问题;有争议的 4×4 矩阵说法 2025 部分 —— 基础设施成果已验证,"56 年纪录"表述有争议 [9][10]
AI Scientist v2(Sakana) 全自动生成 ML 论文;一篇通过 ICLR workshop 评审 2025 弱 —— 里程碑真实,但论文后被发现含幻觉 [12][13]

开放问题

  • 新颖 vs 插值。 当 LLM 驱动的搜索"发现"某物时,它是真新,还是浮现出一个已知但被遗忘的结果(AlphaEvolve / Waksman 之问)?区分二者需要文献接地,而这些系统恰恰薄弱 [9][13]。
  • 评估完整性。 结果的可信度仅取决于其验证器。算法发现拥有廉价的精确校验器(这是其强项);开放式"AI 科学家"输出没有这样的判准,这正是其质量备受争议的原因 [13][18]。
  • 可复现性与污染。 基准分数会被预训练污染(MLE-bench 明确研究了此点)和脚手架差异抬高;缺少脚手架与数据截止日期的"分数"几乎毫无意义 [14]。
  • 自欺式失败模式。 自主流水线会优化看起来成功(通过评审、报告增益),并会幻觉出佐证数字,除非有外部接地 [13]。当前的价值驱动是人在回路的验证,而非自主性——亦见 ai-for-science 的"范式增强 vs 范式跃迁"框架。

来源(Sources)

  1. https://www.nature.com/articles/s41586-022-05172-4 (2026-06-14) —— AlphaTensor,《自然》
  2. https://deepmind.google/blog/discovering-novel-algorithms-with-alphatensor/ (2026-06-14)
  3. https://www.nature.com/articles/s41586-023-06004-9 (2026-06-14) —— AlphaDev,《自然》
  4. https://deepmind.google/blog/alphadev-discovers-faster-sorting-algorithms/ (2026-06-14)
  5. https://www.nature.com/articles/s41586-023-06924-6 (2026-06-14) —— FunSearch,《自然》
  6. https://deepmind.google/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/ (2026-06-14)
  7. https://arxiv.org/abs/2506.13131 (2026-06-14) —— AlphaEvolve 论文
  8. https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ (2026-06-14)
  9. https://en.wikipedia.org/wiki/AlphaEvolve (2026-06-14) —— 含 Waksman/Winograd 注意事项
  10. https://arxiv.org/abs/2506.13242 (2026-06-14) —— 4×4 用 48 次非复数乘法(背景)
  11. https://github.com/sakanaai/ai-scientist-v2 (2026-06-14)
  12. https://sakana.ai/ai-scientist-first-publication/ (2026-06-14)
  13. https://arxiv.org/abs/2502.14297 (2026-06-14) —— 对 AI Scientist v1 的独立批评
  14. https://arxiv.org/abs/2410.07095 (2026-06-14) —— MLE-bench
  15. https://openai.com/index/mle-bench/ (2026-06-14)
  16. https://arxiv.org/abs/2411.15114 (2026-06-14) —— RE-Bench
  17. https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/ (2026-06-14)
  18. https://arxiv.org/abs/2504.01848 (2026-06-14) —— PaperBench
  19. https://openai.com/index/paperbench/ (2026-06-14)
Last compiled: 2026-06-14