Home/AI for Science/AI 化学 — 反应、分子与合成
中文English

AI 化学 — 反应、分子与合成

AI/ML 如何被用于化学的核心动作 —— 预测反应规划合成生成分子计算能量。本模块是 ai-for-science 的子模块,与 aifs-biologyaifs-physics 并列。

范围说明: 本模块严格只谈 AI/ML 角度。湿实验、机理与仪器仅在模型直接涉及处出现。与材料科学重叠的能量/力场模型在此概述,并交叉链接到 mattersim

四大问题族

化学中的 AI 聚为四个松耦合的问题族,各有自己的数据范式与旗舰系统:

  1. 反应预测 —— 给定反应物(及条件),预测产物。最干净的序列到序列设定。
  2. 逆合成与合成规划 —— 给定目标分子,向后搜索到可购买的构建块。
  3. 分子生成 / 逆向设计 —— 给定目标性质,生成候选结构。
  4. 机器学习原子间势(MLIP) —— 给定原子坐标,以足够快的速度预测能量与力,从而在循环中替代 DFT。

第五层是横切的 大模型 / 智能体,用以编排上述四族外加文献、代码与机器人。


1. 反应预测

经典 AI/ML 设定把反应当作字符串到字符串的翻译:反应物 SMILES → 产物 SMILES。

  • Molecular Transformer(Schwaller 等,ACS Central Science 2019)把正向反应预测重构为对 SMILES 词元的神经机器翻译,并关键性地加入了 不确定性校准,使模型能表达对预测产物的置信度 [4]。它成为后续几乎所有基于 Transformer 的反应工作的模板。
  • 后继与变体 沿用同一骨干:迁移学习把 Molecular Transformer 专门化到窄域(如碳水化合物的区域/立体选择性反应、酶催化反应),2025 年的工作则探索 图先验增强双任务(反应 + 逆合成) 训练,以在正/逆方向间共享表示。
  • 基于图的反应模型(如 RXNGraphormer)在分子图而非字符串上运算;2026 年的可复用性报告发现它们能较好迁移到高通量实验(HTE)数据集,但 逆合成 方向比正向方向对分布漂移更敏感。

统一的教训:正向预测是四族中最"已解决"的,因为任务定义清晰,且 USPTO 专利语料提供了数百万样本 —— 但同一语料带有严重偏差(见开放问题)。


2. 逆合成与合成规划

合成规划是叠加在单步模型上的 搜索问题:策略提出断键,树搜索(蒙特卡洛树搜索或 A* 式)递归直到每个叶子都是可购买试剂。

系统 方法 可获得性
AiZynthFinder(AstraZeneca) MCTS + 基于模板的神经策略;递归至可购买前体 [3] 开源
IBM RXN for Chemistry Transformer(Molecular Transformer 谱系)反应 + 逆合成,云服务 托管 / 免费增值
Synthia(原 Chematica) 混合式:专家编码的反应规则 + ML 打分;擅长复杂天然产物 商业
ASKCOS(MIT) 基于模板 + 神经,集成条件推荐 开源
  • AiZynthFinder 是事实上的开源参考:一个 MCTS,由基于反应模板训练的神经策略引导,把分子递归分解到可购买前体。它很快(单目标搜索通常远低于一分钟完成)且被广泛复现 [3]。
  • Synthia(源自 Hopf / Bartosz Grzybowski 的 Chematica)依赖大量手工编码的机理规则外加 ML 打分,已生成被资深化学家判定为合理的复杂天然产物路线 —— 这是 CASP 在困难目标上能与人类路线设计相媲美的最强已发表证据。
  • 人在回路 是 2025 年的主题:与其完全自动化,近期工作加入 提示界面,让化学家引导多步逆合成(限定试剂、规避断键),呼应 human-in-the-loop-ai 的模式。
  • 一个衍生信号 逆合成可达性评分(RAscore) 是廉价的 ML 分类器,预测 AiZynthFinder 是否会 找到路线 —— 在生成流水线中用作可合成性过滤器(第 3 族)。

3. 分子生成 / 逆向设计

逆向设计翻转了性质预测的箭头:不是 结构 → 性质,而是在目标性质条件下生成 结构

方法族 代表 机制
VAE(连接树) JT-VAE 用连接树骨架编码分子图;在隐空间解码 + 优化
扩散 E(3)/SE(3) 等变 3D 扩散、图扩散(MG-DIFF)、图扩散 Transformer 从噪声去噪到合法分子;天然支持 3D 与多条件引导
GFlowNet GFlowNet 分子图生成 按奖励比例 采样结构,偏好多样的高奖励模态而非单一最优 [16]
遗传 / 混合 JANUS(由神经网络引导的 GA) 由学得代理引导的进化搜索
  • JT-VAE 仍是经典的图-VAE 基线:它从合法子图词表构建分子,从而保证化学上合法的解码。
  • 扩散模型 现为最活跃的方向,尤其是 3D / 等变 变体,可直接生成构象并接受 多条件文本引导 提示;2025–2026 年的工作推进了性质条件("免预测器")引导。
  • GFlowNet 正因单最优优化失效之处而被看重:药物/材料发现需要 多样 的候选批次,GFlowNet 按奖励比例采样,2025 年的工作用廉价奖励预训练来引导策略 [16]。

难点不在生成,而在 同时满足合法性 + 可合成性 + 性质保真 —— 这正是生成器越来越多地串联 RAscore 过滤器(第 2 族)与 MLIP 性质校验(第 4 族)的原因。


4. 化学用机器学习原子间势(MLIP)

MLIP 以 DFT 成本的极小一部分从原子坐标预测势能(并经自动微分得到力),使此前难以企及的反应能量学与分子动力学研究成为可能。本族与材料科学高度重叠 —— 见 mattersimaifs-physics

模型 架构 定位
ANI(含 ANI-1xBB,2025) Behler–Parrinello 式描述符 有机分子;ANI-1xBB 面向 反应能量学、势垒高度、键解离(13M+ 几何构型)[9]
MACE 高阶等变消息传递(受 ACE 启发的张量缩并) 准确、广泛使用的通用 MLIP [5]
Allegro 严格局域,无迭代消息传递 可扩展到大体系
OrbNet / OrbNet Denali 来自半经验轨道的特征 以半经验成本达 DFT 精度,面向有机/生物化学
AIMNet2 电荷感知神经势 中性、带电与元素-有机物种
  • 反应性 是前沿:多数 MLIP 在平衡态附近训练,因此捕捉 过渡态与键断裂 需要专门的反应性数据集。ANI-1xBB(2025)正为此而建,报告在势垒高度与键解离预测上优于常规 ANI,并能推广到周环与自由基反应 [9]。2025 年一篇 Chemical Reviews 关于反应性 MLIP 的综述是参考概览 [8]。
  • 基础规模的原子模型 在 2025 年到来:Meta FAIR 的 Open Molecules 2025(OMol25) —— 在 ωB97M-V/def2-TZVPD 级别上的逾 1 亿次 DFT 计算,覆盖小分子、生物分子、金属配合物与电解质 [6] —— 以及在 FAIR 合并的分子 + 材料数据上训练的 Universal Model for Atoms(UMA)[7]。Open Catalyst Project(OC20/OC22,Meta FAIR + CMU)仍是面向催化的先驱,EquiformerV2 是其中一个大模型。

5. 化学用大模型与智能体

编排层包裹四族外加文献、代码与(有时)机器人。

  • ChemCrow(Bran 等,Nature Machine Intelligence 2024)为 GPT-4 配备 18 个专家设计的工具(RXN、逆合成、性质查询、网络搜索、代码)。它自主规划并执行了一种驱虫剂与三种有机催化剂的合成,并引导发现了一种新发色团 [1] —— 经典的"工具使用型化学智能体"。
  • Coscientist(Boiko、MacKnight 等,2023)是一个 设计、规划并控制机器人实验 的大模型:网络搜索、文档检索、代码执行与硬件控制。它在真实自动化硬件上优化了钯催化交叉偶联反应 [2]。
  • 多智能体后继(2025):诸如 ChemAgents 的分层系统在任务管理器之下按角色拆分工作(文献阅读、实验设计、计算执行、机器人操作)。基准工作(如 ChemToolAgent)研究 工具何时真正帮助 大模型,何时反而引入噪声。

这直接连到 ai-for-science 中的"智能体科学"论点:化学是少数几个真正在物理硬件上跑通假设→执行→分析闭环的领域之一。

A-Lab 自主合成争议

本领域的警世故事。A-Lab(Ceder 组,LBNL,与 Google DeepMind 合作)在 Nature(2023 年 11 月)报告,一个自主机器人实验室在 17 天内合成了 43 种新无机材料 [10]。独立化学家 —— 以 Robert Palgrave(UCL)为首 —— 提出"非常严重的问题",认为基于 XRD 的物相鉴定不可靠,且若干所声称化合物要么已存在于无机晶体结构数据库(ICSD),要么未被令人信服地表征为新物质 [11]。Nature 发布了 更正,但批评者(截至 2026 年初的报道)坚持认为,关于是否真正合成了新材料的核心疑虑仍未解决 [12]。

这一事件是整个模块的标准警告:自主性声明必须越过比标题指标更高的表征门槛。 引用 A-Lab 时务必将质疑报道与原文并列引用。


方法表(跨族汇总)

问题族 核心 ML 方法 旗舰 数据范式 成熟度
反应预测 序列到序列 Transformer / 图网络 Molecular Transformer USPTO 专利(数百万,有偏) 高(正向)
逆合成 搜索 + 模板/神经策略 AiZynthFinder、Synthia、IBM RXN 来自专利的反应模板 中–高
生成 VAE / 扩散 / GFlowNet JT-VAE、3D 扩散、GFlowNet 性质标注的分子集 中(合法性缺口)
MLIP 等变 GNN MACE、ANI-1xBB、UMA、Allegro DFT 计算(OMol25、OC20) 高(近平衡),中(反应性)
智能体 工具使用型大模型 ChemCrow、Coscientist 工具 + 文献 + 硬件 早期 / 演示阶段

通用 vs 专用:为什么化学落后于生物

aifs-biology 拥有无可争议的基础模型旗舰 —— AlphaFold 系列,一个模型重定义了整个任务。化学没有对等物,而且差距是结构性的,而非努力不足:

  1. 数据碎片化。 生物收敛到了大型标准化资源(PDB、UniProt),化学的基准却是拼布。MoleculeNet 是许多小型专门数据集的 集合(每个大致从数千到数万化合物),而非单一 ImageNet 规模的语料 [15]。在一个子任务上获胜的模型很少能迁移。
  2. 反应条件复杂性。 反应不只是反应物→产物;产率取决于溶剂、温度、催化剂、浓度、时间与加料顺序 —— 公开数据集常常略去这些变量。多数逆合成基准完全忽略条件,因此"正确"的路线可能根本跑不通。
  3. 报道偏差。 USPTO 专利语料过度代表少数稳健、流行的反应类型,且几乎从不记录 失败 反应,于是模型学到的是什么会被申请专利,而非化学上的真相(见开放问题)[13][14]。
  4. 多尺度物理。 化学横跨电子结构(量子)直至宏观热力学;没有任何单一表示在这一范围内自然,不像生物从蛋白质获得的序列/结构二元性。

2025 年的反向趋势真实但局部:SMILES 基础模型(如在约 9100 万 PubChem SMILES 上预训练的编码器-解码器模型;GP-MoLFormer)、原子基础模型(OMol25 / UMA [6][7])与工具使用型智能体都在推向通用 [15]。但截至 2026 年中,没有任何单一化学模型能在反应预测、逆合成、生成与能量学上同时占优 —— 四族仍是各自独立的技术栈。


开放问题

  • 条件预测。 预测一条路线 是否以及多好地 跑通(溶剂/催化剂/温度/产率),而非仅 某断键是否合法,是最大的实际缺口。公开数据稀疏,HTE 数据多为专有。
  • 数据集偏差与评估。 USPTO 过度代表常见反应,随机训练/测试划分会泄漏相似反应(同专利/同作者),导致 过度乐观的 top-k 分数 [13]。2025 年一篇"对 USPTO 基准的批判性审视"主张许多被测进展是基准伪影 [14]。负样本/失败反应数据几乎完全缺失。
  • 反应性 MLIP。 平衡态训练的势对过渡态外推很差;构建广泛、可靠的反应性数据集(如 ANI-1xBB)并校验势垒高度仍是开放问题 [8][9]。
  • 生成分子的可合成性。 生成器仍会产出纸面合法却难以或无法合成的结构;将生成与逆合成更紧密耦合(RAscore 式过滤器)在改进但未解决。
  • 自主性验证。 A-Lab 之后,本领域需要 标准化的表征与可复现性协议,方可接受"机器人发现了 X"的声明 [10][11][12]。
  • 基础模型碎片化。 一个模型能否统一四族 —— 抑或化学仍是专家联邦 —— 是开放的战略问题 [15]。

交叉链接

  • ai-for-science —— 母级全景;"智能体科学"框架。
  • aifs-biology —— 基础模型成熟的同级;有用的对照。
  • aifs-physics —— 共享 MLIP / 等变 GNN 方法与仿真代理模式。
  • mattersim —— 材料侧原子模型;与 MLIP 族重叠。
  • human-in-the-loop-ai —— 逆合成中正在出现的提示/引导界面。

来源

  1. ChemCrow — "Augmenting large language models with chemistry tools," Nature Machine Intelligence, 2024. https://www.nature.com/articles/s42256-024-00832-8 (2026-06-14)
  2. Coscientist — Boiko, MacKnight 等, "Autonomous chemical research with large language models." https://www.semanticscholar.org/paper/Autonomous-chemical-research-with-large-language-Boiko-MacKnight/6fe3779fe5f2e9402abdd08ad8db41a0f13a99eb (2026-06-14)
  3. AiZynthFinder — Journal of Cheminformatics, 2020. https://link.springer.com/article/10.1186/s13321-020-00472-1 (2026-06-14)
  4. Molecular Transformer — ACS Central Science, 2019. https://pubs.acs.org/doi/10.1021/acscentsci.9b00576 (2026-06-14)
  5. MACE. https://github.com/ACEsuit/mace (2026-06-14)
  6. OMol25(Open Molecules 2025)Dataset, Evaluations, and Models, arXiv:2505.08762. https://arxiv.org/abs/2505.08762 (2026-06-14)
  7. UMA — A Family of Universal Models for Atoms, arXiv:2506.23971. https://arxiv.org/pdf/2506.23971 (2026-06-14)
  8. Reactive Machine Learning Interatomic Potentials for Chemistry and Materials Science, Chemical Reviews, 2025. https://pubs.acs.org/doi/10.1021/acs.chemrev.5c00728 (2026-06-14)
  9. ANI-1xBB: An ANI-Based Reactive Potential for Small Organic Molecules, JCTC, 2025. https://pubs.acs.org/doi/full/10.1021/acs.jctc.5c00347 (2026-06-14)
  10. A-Lab — "An autonomous laboratory for the accelerated synthesis of inorganic materials," Nature, 2023. https://www.nature.com/articles/s41586-023-06734-w (2026-06-14)
  11. Chemistry World — "New analysis raises doubts over autonomous lab's materials discoveries." https://www.chemistryworld.com/news/new-analysis-raises-doubts-over-autonomous-labs-materials-discoveries/4018791.article (2026-06-14)
  12. C&EN — "Nature robot chemist paper corrected, but some questions remain unanswered," 2026. https://cen.acs.org/research-integrity/Nature-robot-chemist-paper-corrected/104/web/2026/01 (2026-06-14)
  13. An exploration of dataset bias in single-step retrosynthesis, ChemRxiv, 2025. https://chemrxiv.org/doi/pdf/10.26434/chemrxiv-2025-5fcj6 (2026-06-14)
  14. A Critical Look at the USPTO Benchmark, EMNLP Findings 2025. https://aclanthology.org/2025.findings-emnlp.1242.pdf (2026-06-14)
  15. A Perspective on Foundation Models in Chemistry. https://pmc.ncbi.nlm.nih.gov/articles/PMC12042027/ (2026-06-14)
  16. Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation, arXiv:2503.06337. https://arxiv.org/pdf/2503.06337 (2026-06-14)
Last compiled: 2026-06-14