AI 服务 AI —— 自主 ML 研究与算法发现

ai-for-science 的自反情形：用 AI/ML 加速 ML 研究本身 —— 发现算法、运行实验，以及（炒作前沿）"设计下一个模型"。

上级： ai-for-science · 同级： aifs-mathematics

这是 AI 既是工具又是研究对象的一页。它分为三个需要诚实区分的层级：(1) 狭义算法发现 —— 真实、可验证、已发表的成果；(2) 自主"AI 科学家" —— 流水线令人印象深刻，但其产出的质量存在争议；(3) 递归自我改进 —— 大体仍是思想实验，实证支撑薄弱。把这三层分开正是这门学科的全部要义；把它们混为一谈正是炒作滋生之处。

1. 由 AI 完成的算法发现（证据最扎实）

最站得住脚的"AI 改进 AI/计算"成果，都来自能产出程序或构造、且这些产出可被独立验证的搜索系统。验证正是其可信的根源：一个发现出的对象，要么正确地完成矩阵乘法，要么不能。

AlphaTensor（2022）

DeepMind 把矩阵乘法建模为单人游戏（"TensorGame"），训练一个 AlphaZero 风格的强化学习智能体来寻找低秩张量分解 [1]。它重新发现了许多已知方案，并且值得注意地——在有限域（mod 2）中首次改进了 4×4 矩阵的 Strassen 两层算法（自 1969 年以来首次），还产出了在特定 GPU/TPU 上快 10–20% 的硬件适配方案 [1][2]。注意： 标题里的 4×4"mod-2"结果是在某个特定域上成立，并非普遍性改进；很多实际加速是硬件特定的。

AlphaDev（2023）

一个直接在汇编指令层操作的强化学习智能体，通过两个新的"swap"与"copy"操作，为定长排序（sort-3/4/5）找到了更短的例程，并为 9–16 字节输入找到了更快的哈希 [3][4]。这些成果是真实的，并已合入 LLVM libc++ 标准库——这是其排序例程十多年来的首次变更，也是首次源自 AI 发现的算法 [4]。注意： 仅在极短的定长序列上收益巨大（极小输入约 70%，超过 25 万元素时约 1.7%）[4]；这是对热点叶子例程的微优化，并非新的渐近复杂度类。

FunSearch（2023）

首个把大语言模型与评估器 + 进化循环配对、并在开放问题上产出新结果的系统：改进了cap set（帽集）问题的构造（约 20 年来对渐近下界的最大改进），并为在线装箱找到更好的启发式 [5][6]。关键设计思想：进化生成解的程序，而非解本身——这使输出可解释、可验证 [5]。注意： 适用于具有廉价、精确评估器的狭窄问题；LLM 负责提议，验证器负责裁决。

AlphaEvolve（2025）

当前的旗舰：一个由 Gemini 驱动的进化式编码智能体，在评估器反馈下对整个代码文件进行变异 [7][8]。其报告的成果横跨实际基础设施（通过数据中心调度启发式收回了约 0.7% 的 Google 全球算力、一项 Verilog/TPU 算术电路化简、对某 Gemini 训练 kernel 约 23% 的加速）与数学（应用于 50+ 个开放问题；约 75% 重新发现了已知最优构造，约 20% 改进了最优解）[8][7]。两个被广泛引用的具体结果：更密的 11 维**接触数（kissing number）**配置（592 → 593），以及对 Erdős 最小重叠界的微小改进 [8][9]。

有争议的标题。 AlphaEvolve "4×4 复数矩阵 48 次标量乘法、56 年来首次超越 Strassen"是本页被过度引用最严重的说法。批评者指出，Winograd（1967）就已为 4×4 达到 48 次乘法，而 Waksman 的 1970 年算法在可除以 2 的交换环上仅用 46 次 [10][9]。诚实的表述是：AlphaEvolve 的方案在非交换但可除以 2的设定下确实是改进，但它不是一个干净的"打破 56 年纪录"的故事 [9][10]。这是本模块中最重要的一条提醒。

2. 自主"AI 科学家"（流水线惊艳，质量有争议）

这些系统把假设生成 → 实验设计 → 代码执行 → 分析 → 论文撰写串成一个闭环。工程是真实的；产出的科学价值才是证据薄弱之处。

Sakana "AI Scientist"（v1，2024 → v2，2025）

v1 以约每篇 15 美元的成本端到端生成 ML 论文。v2 用**最佳优先树搜索（BFTS）**取代了线性流水线，对实验分支进行搜索，并去除了对人工编写代码模板的依赖 [11]。标志性事件：Sakana 向 ICLR 2025 一个 workshop（"I Can't Believe It's Not Better"）提交了三篇完全由 AI 生成的论文，其中一篇通过了同行评审——据称得分高于该 workshop 平均水平——成为首篇有据可查、通过人类评审的 AI 生成论文 [12]。Sakana 自己在正式发表前撤回了该论文，并将其定性为流程实验。

诚实的批评。 一项对 v1 的独立评估发现，约 42% 的拟议实验因代码错误失败，稿件引用中位数约 5 条（且常已过时），数篇含有幻觉性数值结果、占位文本与缺失图表 [13]。即便是 v2 那篇通过评审的论文，后来也被指出含有幻觉并夸大了新颖性。"被 workshop 接收"这一里程碑真实但范围狭窄：workshop 门槛 < 主会门槛，且"通过评审" ≠ "正确且新颖的科学"。

更广义的智能体研究浪潮

如今已形成一个"AI 协同科学家"与"研究智能体"系统的小产业（Google 的 AI co-scientist、FutureHouse、各类开源脚手架）。模式高度一致：擅长构思与样板代码，弱于严格的新颖性评估、也弱于不自欺。 约束瓶颈是评估的完整性，而非生成的吞吐量。

3. 基准测试：智能体在真实 ML 研究上到底有多强？

由于演示容易被挑选，2024–2025 年的三个基准试图用可验证的评分，对照人类基线来衡量智能体的 ML 研究能力。

基准	作者	任务	标志性结果
MLE-bench	OpenAI（2024）	75 个 Kaggle ML 工程竞赛	最佳配置（o1-preview + AIDE 脚手架）在 16.9% 的竞赛中达到至少铜牌水平 [14][15]
RE-Bench	METR（2024）	7 个开放式 ML 研发环境，对照 61 位人类专家	2 小时预算下智能体约为人类的 4 倍；8 小时人类略胜；32 小时人类约为最强智能体的 2 倍 [16][17]
PaperBench	OpenAI（2025）	从零复现 20 篇 ICML 2024 论文（8,316 个可评分子任务）	最佳智能体（Claude 3.5 Sonnet + 脚手架）平均 21.0%；在 3 篇子集上 ML 博士达 41.4%，o1 为 26.6% [18][19]

如何解读这些表。 一致的发现是：智能体又快又便宜，但会触顶——在速度占主导的短时窗里胜出，在奖励持续推理、调试与判断的长时窗里落败 [16][18]。没有一个基准显示智能体在开放式工作上能与专家研究者比肩。（分数随每一代模型快速上升，因此任何具体数字都应视为快照，而非天花板。）

4. 神经架构搜索 / AutoML —— 大体已被取代

经典 NAS（约 2017–2020 年，基于 RL 控制器或进化搜索架构）如今基本已成历史。前沿转移有两个原因：(1) 缩放定律让"更大的 Transformer + 更多数据"胜过搜出来的奇异架构；(2) 架构创新已转向人类 + LLM 辅助的组件设计（注意力变体、归一化、专家混合路由），而非盲目搜索。AutoML 在生产中以超参/流水线优化（Optuna 一类）的形式存续，也作为 §3 中驱动智能体的系统（如 AIDE）内部的脚手架而存在——而非自身的研究前沿。教训是：唯有当你拥有廉价、忠实的目标函数时，搜索才会胜过"搜索架构"；缩放提供了通往能力的更廉价路径。

5. 自我改进 / 模型设计模型（保持脚踏实地）

这是思辨性最强的一层，此处尤其需要措辞精确。

真实的部分（2025–2026）： LLM 已经在帮助设计自身训练的若干环节——提出数据筛选/过滤启发式、生成合成训练数据、起草奖励模型评分细则，并（通过 §1 的 AlphaEvolve）优化训练 kernel。这些都是具体、有界的贡献，其中人类仍掌控目标与验证。

有争议的部分：****"递归自我改进"（RSI）——一个模型自主把自己改写成更强的模型并复利累积。研讨会（ICLR 2026）已开始认真研究 RSI，但现存的实证循环只是在人类指导下更新提示、数据或外围代码，而非在无人参与下提升核心能力。有两个事实抵消了失控叙事：(a) 模型在对自身无外部接地的输出进行递归训练时会崩溃（《自然》2024 年有记载），因此自生成数据需要外部信号；(b) 每个被验证的循环都依赖验证器或人类来防止漂移。诚实的立场是：有用的自我改进真实且有界；而递归、无界的自我改进尚未被证实，当有人断言其即将到来时，应将其标注为炒作。

6. 谁在押注这件事 —— labs 全景

简短而怀疑地梳理一下：哪些组织的整套论题押在 §5 那个自我改进循环真能 scale 上。自动化 AI 研究（这一整页）正是它们战略的方法论核心——让 AI 在"做 AI 研究"上足够强，使进展复利累积。

recursive-superintelligence（RSI）—— 本页论题最纯粹的化身：据报道估值约 46.5 亿美元的初创（Richard Socher；田渊栋 / Yuandong Tian，前 Meta FAIR 强化学习/推理负责人；Tim Rocktäschel，前 DeepMind；ViT 作者 Alexey Dosovitskiy），其整个产品就是 §5 的自我改进循环——"模型造模型"，截至 2026 年仍无产品，NVIDIA 与 AMD 共同投资。检验这个循环能否 scale 的最干净样本。
safe-superintelligence（SSI）—— Ilya Sutskever 的"直奔安全超智能"，明确不做中间产品；据报道在零产品情况下以约 320 亿美元估值融资——纯押研究路径。
meta-superintelligence-labs（MSL）—— Meta 2025 年成立的超智能部门，由 Alexandr Wang 领衔，以 143 亿美元的 Scale AI 交易和据报道的九位数挖人包为支撑；使命是"个人超智能"。
在位者 —— Google DeepMind（明确的 AGI 使命）、OpenAI（章程围绕超智能；其 Superalignment 团队 2024 年解散）、xAI 都在追同一目标。按本 wiki 的大公司规则，它们在这里不单独建产品页。

诚实的差距： 上述没有任何一家展示出超智能论题所要求的递归、无界的自我改进（见 §5）。它们切实拥有的是资本、算力、人才，以及本页编录的自动化 AI 研究工具。把"ASI"理解为一个目标和资本配置，而非已实现或即将到来的结果——本页证据支持的是有界的、有验证器把关的自我改进，仅此而已。

系统表（验证状态）

系统	发现/完成了什么	年份	是否已验证？
AlphaTensor	更快的矩阵乘张量分解；4×4 在 GF(2) 上超越 Strassen	2022	是 —— 发表于《自然》，分解可校验 [1]
AlphaDev	更短的 sort-3/4/5 汇编；更快的小数据哈希	2023	是 —— 已合入 LLVM libc++ [4]
FunSearch	新的 cap-set 构造；更优的在线装箱启发式	2023	是 —— 《自然》，构造可验证 [5]
AlphaEvolve	数据中心与 kernel 优化；50+ 数学问题；有争议的 4×4 矩阵说法	2025	部分 —— 基础设施成果已验证，"56 年纪录"表述有争议 [9][10]
AI Scientist v2（Sakana）	全自动生成 ML 论文；一篇通过 ICLR workshop 评审	2025	弱 —— 里程碑真实，但论文后被发现含幻觉 [12][13]

开放问题

新颖 vs 插值。 当 LLM 驱动的搜索"发现"某物时，它是真新，还是浮现出一个已知但被遗忘的结果（AlphaEvolve / Waksman 之问）？区分二者需要文献接地，而这些系统恰恰薄弱 [9][13]。
评估完整性。 结果的可信度仅取决于其验证器。算法发现拥有廉价的精确校验器（这是其强项）；开放式"AI 科学家"输出没有这样的判准，这正是其质量备受争议的原因 [13][18]。
可复现性与污染。 基准分数会被预训练污染（MLE-bench 明确研究了此点）和脚手架差异抬高；缺少脚手架与数据截止日期的"分数"几乎毫无意义 [14]。
自欺式失败模式。 自主流水线会优化看起来成功（通过评审、报告增益），并会幻觉出佐证数字，除非有外部接地 [13]。当前的价值驱动是人在回路的验证，而非自主性——亦见 ai-for-science 的"范式增强 vs 范式跃迁"框架。

来源（Sources）

https://www.nature.com/articles/s41586-022-05172-4 (2026-06-14) —— AlphaTensor，《自然》
https://deepmind.google/blog/discovering-novel-algorithms-with-alphatensor/ (2026-06-14)
https://www.nature.com/articles/s41586-023-06004-9 (2026-06-14) —— AlphaDev，《自然》
https://deepmind.google/blog/alphadev-discovers-faster-sorting-algorithms/ (2026-06-14)
https://www.nature.com/articles/s41586-023-06924-6 (2026-06-14) —— FunSearch，《自然》
https://deepmind.google/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/ (2026-06-14)
https://arxiv.org/abs/2506.13131 (2026-06-14) —— AlphaEvolve 论文
https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ (2026-06-14)
https://en.wikipedia.org/wiki/AlphaEvolve (2026-06-14) —— 含 Waksman/Winograd 注意事项
https://arxiv.org/abs/2506.13242 (2026-06-14) —— 4×4 用 48 次非复数乘法（背景）
https://github.com/sakanaai/ai-scientist-v2 (2026-06-14)
https://sakana.ai/ai-scientist-first-publication/ (2026-06-14)
https://arxiv.org/abs/2502.14297 (2026-06-14) —— 对 AI Scientist v1 的独立批评
https://arxiv.org/abs/2410.07095 (2026-06-14) —— MLE-bench
https://openai.com/index/mle-bench/ (2026-06-14)
https://arxiv.org/abs/2411.15114 (2026-06-14) —— RE-Bench
https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/ (2026-06-14)
https://arxiv.org/abs/2504.01848 (2026-06-14) —— PaperBench
https://openai.com/index/paperbench/ (2026-06-14)