AI 化学 — 反应、分子与合成

AI/ML 如何被用于化学的核心动作 —— 预测反应、规划合成、生成分子、计算能量。本模块是 ai-for-science 的子模块，与 aifs-biology、aifs-physics 并列。

范围说明： 本模块严格只谈 AI/ML 角度。湿实验、机理与仪器仅在模型直接涉及处出现。与材料科学重叠的能量/力场模型在此概述，并交叉链接到 mattersim。

四大问题族

化学中的 AI 聚为四个松耦合的问题族，各有自己的数据范式与旗舰系统：

反应预测 —— 给定反应物（及条件），预测产物。最干净的序列到序列设定。
逆合成与合成规划 —— 给定目标分子，向后搜索到可购买的构建块。
分子生成 / 逆向设计 —— 给定目标性质，生成候选结构。
机器学习原子间势（MLIP） —— 给定原子坐标，以足够快的速度预测能量与力，从而在循环中替代 DFT。

第五层是横切的 大模型 / 智能体，用以编排上述四族外加文献、代码与机器人。

1. 反应预测

经典 AI/ML 设定把反应当作字符串到字符串的翻译：反应物 SMILES → 产物 SMILES。

Molecular Transformer（Schwaller 等，ACS Central Science 2019）把正向反应预测重构为对 SMILES 词元的神经机器翻译，并关键性地加入了 不确定性校准，使模型能表达对预测产物的置信度 [4]。它成为后续几乎所有基于 Transformer 的反应工作的模板。
后继与变体 沿用同一骨干：迁移学习把 Molecular Transformer 专门化到窄域（如碳水化合物的区域/立体选择性反应、酶催化反应），2025 年的工作则探索 图先验增强 与 双任务（反应 + 逆合成） 训练，以在正/逆方向间共享表示。
基于图的反应模型（如 RXNGraphormer）在分子图而非字符串上运算；2026 年的可复用性报告发现它们能较好迁移到高通量实验（HTE）数据集，但 逆合成 方向比正向方向对分布漂移更敏感。

统一的教训：正向预测是四族中最"已解决"的，因为任务定义清晰，且 USPTO 专利语料提供了数百万样本 —— 但同一语料带有严重偏差（见开放问题）。

2. 逆合成与合成规划

合成规划是叠加在单步模型上的 搜索问题：策略提出断键，树搜索（蒙特卡洛树搜索或 A* 式）递归直到每个叶子都是可购买试剂。

系统	方法	可获得性
AiZynthFinder（AstraZeneca）	MCTS + 基于模板的神经策略；递归至可购买前体 [3]	开源
IBM RXN for Chemistry	Transformer（Molecular Transformer 谱系）反应 + 逆合成，云服务	托管 / 免费增值
Synthia（原 Chematica）	混合式：专家编码的反应规则 + ML 打分；擅长复杂天然产物	商业
ASKCOS（MIT）	基于模板 + 神经，集成条件推荐	开源

AiZynthFinder 是事实上的开源参考：一个 MCTS，由基于反应模板训练的神经策略引导，把分子递归分解到可购买前体。它很快（单目标搜索通常远低于一分钟完成）且被广泛复现 [3]。
Synthia（源自 Hopf / Bartosz Grzybowski 的 Chematica）依赖大量手工编码的机理规则外加 ML 打分，已生成被资深化学家判定为合理的复杂天然产物路线 —— 这是 CASP 在困难目标上能与人类路线设计相媲美的最强已发表证据。
人在回路 是 2025 年的主题：与其完全自动化，近期工作加入 提示界面，让化学家引导多步逆合成（限定试剂、规避断键），呼应 human-in-the-loop-ai 的模式。
一个衍生信号 逆合成可达性评分（RAscore） 是廉价的 ML 分类器，预测 AiZynthFinder 是否会 找到路线 —— 在生成流水线中用作可合成性过滤器（第 3 族）。

3. 分子生成 / 逆向设计

逆向设计翻转了性质预测的箭头：不是 结构 → 性质，而是在目标性质条件下生成结构。

方法族	代表	机制
VAE（连接树）	JT-VAE	用连接树骨架编码分子图；在隐空间解码 + 优化
扩散	E(3)/SE(3) 等变 3D 扩散、图扩散（MG-DIFF）、图扩散 Transformer	从噪声去噪到合法分子；天然支持 3D 与多条件引导
GFlowNet	GFlowNet 分子图生成	按奖励比例采样结构，偏好多样的高奖励模态而非单一最优 [16]
遗传 / 混合	JANUS（由神经网络引导的 GA）	由学得代理引导的进化搜索

JT-VAE 仍是经典的图-VAE 基线：它从合法子图词表构建分子，从而保证化学上合法的解码。
扩散模型 现为最活跃的方向，尤其是 3D / 等变 变体，可直接生成构象并接受 多条件 或 文本引导 提示；2025–2026 年的工作推进了性质条件（"免预测器"）引导。
GFlowNet 正因单最优优化失效之处而被看重：药物/材料发现需要多样的候选批次，GFlowNet 按奖励比例采样，2025 年的工作用廉价奖励预训练来引导策略 [16]。

难点不在生成，而在 同时满足合法性 + 可合成性 + 性质保真 —— 这正是生成器越来越多地串联 RAscore 过滤器（第 2 族）与 MLIP 性质校验（第 4 族）的原因。

4. 化学用机器学习原子间势（MLIP）

MLIP 以 DFT 成本的极小一部分从原子坐标预测势能（并经自动微分得到力），使此前难以企及的反应能量学与分子动力学研究成为可能。本族与材料科学高度重叠 —— 见 mattersim 与 aifs-physics。

模型	架构	定位
ANI（含 ANI-1xBB，2025）	Behler–Parrinello 式描述符	有机分子；ANI-1xBB 面向反应能量学、势垒高度、键解离（13M+ 几何构型）[9]
MACE	高阶等变消息传递（受 ACE 启发的张量缩并）	准确、广泛使用的通用 MLIP [5]
Allegro	严格局域，无迭代消息传递	可扩展到大体系
OrbNet / OrbNet Denali	来自半经验轨道的特征	以半经验成本达 DFT 精度，面向有机/生物化学
AIMNet2	电荷感知神经势	中性、带电与元素-有机物种

反应性 是前沿：多数 MLIP 在平衡态附近训练，因此捕捉 过渡态与键断裂 需要专门的反应性数据集。ANI-1xBB（2025）正为此而建，报告在势垒高度与键解离预测上优于常规 ANI，并能推广到周环与自由基反应 [9]。2025 年一篇 Chemical Reviews 关于反应性 MLIP 的综述是参考概览 [8]。
基础规模的原子模型 在 2025 年到来：Meta FAIR 的 Open Molecules 2025（OMol25） —— 在 ωB97M-V/def2-TZVPD 级别上的逾 1 亿次 DFT 计算，覆盖小分子、生物分子、金属配合物与电解质 [6] —— 以及在 FAIR 合并的分子 + 材料数据上训练的 Universal Model for Atoms（UMA）[7]。Open Catalyst Project（OC20/OC22，Meta FAIR + CMU）仍是面向催化的先驱，EquiformerV2 是其中一个大模型。

5. 化学用大模型与智能体

编排层包裹四族外加文献、代码与（有时）机器人。

ChemCrow（Bran 等，Nature Machine Intelligence 2024）为 GPT-4 配备 18 个专家设计的工具（RXN、逆合成、性质查询、网络搜索、代码）。它自主规划并执行了一种驱虫剂与三种有机催化剂的合成，并引导发现了一种新发色团 [1] —— 经典的"工具使用型化学智能体"。
Coscientist（Boiko、MacKnight 等，2023）是一个 设计、规划并控制机器人实验 的大模型：网络搜索、文档检索、代码执行与硬件控制。它在真实自动化硬件上优化了钯催化交叉偶联反应 [2]。
多智能体后继（2025）：诸如 ChemAgents 的分层系统在任务管理器之下按角色拆分工作（文献阅读、实验设计、计算执行、机器人操作）。基准工作（如 ChemToolAgent）研究 工具何时真正帮助 大模型，何时反而引入噪声。

这直接连到 ai-for-science 中的"智能体科学"论点：化学是少数几个真正在物理硬件上跑通假设→执行→分析闭环的领域之一。

A-Lab 自主合成争议

本领域的警世故事。A-Lab（Ceder 组，LBNL，与 Google DeepMind 合作）在 Nature（2023 年 11 月）报告，一个自主机器人实验室在 17 天内合成了 43 种新无机材料 [10]。独立化学家 —— 以 Robert Palgrave（UCL）为首 —— 提出"非常严重的问题"，认为基于 XRD 的物相鉴定不可靠，且若干所声称化合物要么已存在于无机晶体结构数据库（ICSD），要么未被令人信服地表征为新物质 [11]。Nature 发布了更正，但批评者（截至 2026 年初的报道）坚持认为，关于是否真正合成了新材料的核心疑虑仍未解决 [12]。

这一事件是整个模块的标准警告：自主性声明必须越过比标题指标更高的表征门槛。 引用 A-Lab 时务必将质疑报道与原文并列引用。

方法表（跨族汇总）

问题族	核心 ML 方法	旗舰	数据范式	成熟度
反应预测	序列到序列 Transformer / 图网络	Molecular Transformer	USPTO 专利（数百万，有偏）	高（正向）
逆合成	搜索 + 模板/神经策略	AiZynthFinder、Synthia、IBM RXN	来自专利的反应模板	中–高
生成	VAE / 扩散 / GFlowNet	JT-VAE、3D 扩散、GFlowNet	性质标注的分子集	中（合法性缺口）
MLIP	等变 GNN	MACE、ANI-1xBB、UMA、Allegro	DFT 计算（OMol25、OC20）	高（近平衡），中（反应性）
智能体	工具使用型大模型	ChemCrow、Coscientist	工具 + 文献 + 硬件	早期 / 演示阶段

通用 vs 专用：为什么化学落后于生物

aifs-biology 拥有无可争议的基础模型旗舰 —— AlphaFold 系列，一个模型重定义了整个任务。化学没有对等物，而且差距是结构性的，而非努力不足：

数据碎片化。 生物收敛到了大型标准化资源（PDB、UniProt），化学的基准却是拼布。MoleculeNet 是许多小型专门数据集的集合（每个大致从数千到数万化合物），而非单一 ImageNet 规模的语料 [15]。在一个子任务上获胜的模型很少能迁移。
反应条件复杂性。 反应不只是反应物→产物；产率取决于溶剂、温度、催化剂、浓度、时间与加料顺序 —— 公开数据集常常略去这些变量。多数逆合成基准完全忽略条件，因此"正确"的路线可能根本跑不通。
报道偏差。 USPTO 专利语料过度代表少数稳健、流行的反应类型，且几乎从不记录失败反应，于是模型学到的是什么会被申请专利，而非化学上的真相（见开放问题）[13][14]。
多尺度物理。 化学横跨电子结构（量子）直至宏观热力学；没有任何单一表示在这一范围内自然，不像生物从蛋白质获得的序列/结构二元性。

2025 年的反向趋势真实但局部：SMILES 基础模型（如在约 9100 万 PubChem SMILES 上预训练的编码器-解码器模型；GP-MoLFormer）、原子基础模型（OMol25 / UMA [6][7]）与工具使用型智能体都在推向通用 [15]。但截至 2026 年中，没有任何单一化学模型能在反应预测、逆合成、生成与能量学上同时占优 —— 四族仍是各自独立的技术栈。

开放问题

条件预测。 预测一条路线 是否以及多好地 跑通（溶剂/催化剂/温度/产率），而非仅 某断键是否合法，是最大的实际缺口。公开数据稀疏，HTE 数据多为专有。
数据集偏差与评估。 USPTO 过度代表常见反应，随机训练/测试划分会泄漏相似反应（同专利/同作者），导致 过度乐观的 top-k 分数 [13]。2025 年一篇"对 USPTO 基准的批判性审视"主张许多被测进展是基准伪影 [14]。负样本/失败反应数据几乎完全缺失。
反应性 MLIP。 平衡态训练的势对过渡态外推很差；构建广泛、可靠的反应性数据集（如 ANI-1xBB）并校验势垒高度仍是开放问题 [8][9]。
生成分子的可合成性。 生成器仍会产出纸面合法却难以或无法合成的结构；将生成与逆合成更紧密耦合（RAscore 式过滤器）在改进但未解决。
自主性验证。 A-Lab 之后，本领域需要 标准化的表征与可复现性协议，方可接受"机器人发现了 X"的声明 [10][11][12]。
基础模型碎片化。 一个模型能否统一四族 —— 抑或化学仍是专家联邦 —— 是开放的战略问题 [15]。

交叉链接

ai-for-science —— 母级全景；"智能体科学"框架。
aifs-biology —— 基础模型成熟的同级；有用的对照。
aifs-physics —— 共享 MLIP / 等变 GNN 方法与仿真代理模式。
mattersim —— 材料侧原子模型；与 MLIP 族重叠。
human-in-the-loop-ai —— 逆合成中正在出现的提示/引导界面。

来源

ChemCrow — "Augmenting large language models with chemistry tools," Nature Machine Intelligence, 2024. https://www.nature.com/articles/s42256-024-00832-8 (2026-06-14)
Coscientist — Boiko, MacKnight 等, "Autonomous chemical research with large language models." https://www.semanticscholar.org/paper/Autonomous-chemical-research-with-large-language-Boiko-MacKnight/6fe3779fe5f2e9402abdd08ad8db41a0f13a99eb (2026-06-14)
AiZynthFinder — Journal of Cheminformatics, 2020. https://link.springer.com/article/10.1186/s13321-020-00472-1 (2026-06-14)
Molecular Transformer — ACS Central Science, 2019. https://pubs.acs.org/doi/10.1021/acscentsci.9b00576 (2026-06-14)
MACE. https://github.com/ACEsuit/mace (2026-06-14)
OMol25（Open Molecules 2025）Dataset, Evaluations, and Models, arXiv:2505.08762. https://arxiv.org/abs/2505.08762 (2026-06-14)
UMA — A Family of Universal Models for Atoms, arXiv:2506.23971. https://arxiv.org/pdf/2506.23971 (2026-06-14)
Reactive Machine Learning Interatomic Potentials for Chemistry and Materials Science, Chemical Reviews, 2025. https://pubs.acs.org/doi/10.1021/acs.chemrev.5c00728 (2026-06-14)
ANI-1xBB: An ANI-Based Reactive Potential for Small Organic Molecules, JCTC, 2025. https://pubs.acs.org/doi/full/10.1021/acs.jctc.5c00347 (2026-06-14)
A-Lab — "An autonomous laboratory for the accelerated synthesis of inorganic materials," Nature, 2023. https://www.nature.com/articles/s41586-023-06734-w (2026-06-14)
Chemistry World — "New analysis raises doubts over autonomous lab's materials discoveries." https://www.chemistryworld.com/news/new-analysis-raises-doubts-over-autonomous-labs-materials-discoveries/4018791.article (2026-06-14)
C&EN — "Nature robot chemist paper corrected, but some questions remain unanswered," 2026. https://cen.acs.org/research-integrity/Nature-robot-chemist-paper-corrected/104/web/2026/01 (2026-06-14)
An exploration of dataset bias in single-step retrosynthesis, ChemRxiv, 2025. https://chemrxiv.org/doi/pdf/10.26434/chemrxiv-2025-5fcj6 (2026-06-14)
A Critical Look at the USPTO Benchmark, EMNLP Findings 2025. https://aclanthology.org/2025.findings-emnlp.1242.pdf (2026-06-14)
A Perspective on Foundation Models in Chemistry. https://pmc.ncbi.nlm.nih.gov/articles/PMC12042027/ (2026-06-14)
Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation, arXiv:2503.06337. https://arxiv.org/pdf/2503.06337 (2026-06-14)