生物学中的 AI — 蛋白质、基因组与细胞

生物学可以说是 AI 从演示走向基础设施最快的科学领域。原因是结构性的：生命以序列编码自身——蛋白质是氨基酸字符串，基因组是核苷酸字符串——而数十年的高通量测序已产出数十亿条此类字符串，可以自监督地学习，这恰恰是大型神经模型最擅长的范式。本模块综述定义 2025–2026 前沿的 AI/ML 方法：结构预测、生成式蛋白质设计、序列/基因组基础模型，以及争议更大的单细胞模型。本文刻意聚焦 方法与系统，而非湿实验生物学本身。跨领域框架见 ai-for-science，紧密耦合的分子化学侧见 aifs-chemistry。

1. 蛋白质结构预测

从序列预测三维蛋白质结构是本领域的突破性用例。AlphaFold 2（2021）使用 Evoformer，在多序列比对（MSA）与残基对表征上联合推理，再由一个具备 SE(3) 感知的"结构模块"输出坐标。

AlphaFold 3（2024）是一次重大的架构重设计。它用一个 扩散网络 取代了手工设计的结构模块，直接在原子坐标上运作——概念上类似图像扩散，从原子噪声云出发，经多步去噪得到最终结构 [1]。决定性的变化在于范围：AF3 在单一统一框架内预测涵盖蛋白质、核酸、小分子配体、离子与修饰残基的复合物联合结构。据报告，其在蛋白质–配体相互作用上的准确度远高于专门的对接工具，在蛋白质–核酸相互作用上高于核酸专用预测器，在抗体–抗原准确度上优于 AlphaFold-Multimer v2.3 [1]。

ESMFold（Meta AI，2022–2023）走了另一条路：它从 单条序列 折叠，不用 MSA 或模板，通过蛋白质语言模型 ESM-2（报告变体最大达 150 亿参数）读出结构 [2]。据报告其推理速度约比 AlphaFold 2 快一个数量级，这使得 6 亿多蛋白质的 ESM Metagenomic Atlas 成为可能；对语言模型有把握的序列准确度具竞争力，其余则较弱 [2]。

当前局限。 它们仍是静态结构预测器——构象动力学、变构与折叠路径都不在范围内 [1]。独立分析报告 AF3 会在 内在无序区域幻觉出有序结构，某研究报告相对 DisProt 有相当比例的无序残基错配 [9]。手性与异常化学计量仍是弱点，对缺乏进化信号的序列准确度也会下降。

2. 蛋白质设计 / 从头设计

预测是从序列读出结构，设计则相反且具生成性：为目标功能发明一个新蛋白质。

RFdiffusion（Baker 实验室）是建立在 RoseTTAFold 骨架上的去噪扩散模型。它将每个残基表示为刚性坐标系（一个 Cα 坐标加一个 N–Cα–C 取向），并运行 SE(3) 等变 扩散，使输出对全局旋转/平移保持不变 [3][4]。它在基序、对称性或结合靶标的条件下生成蛋白质骨架。
ProteinMPNN 解决互补的 逆折叠 问题：给定骨架，设计能折叠成它的氨基酸序列。经典流程是 RFdiffusion → ProteinMPNN：先几何引擎，再序列设计器 [4]。
AlphaProteo（DeepMind，2024）是直接针对 从头结合体 问题的模型族。在报告的七个靶蛋白集合上，它实现了比既有方法好 3 至 300 倍的结合亲和力与更高的实验成功率，生成了对 VEGF-A 和一个 SARS-CoV-2 蛋白等靶标的结合体，往往只需一轮中通量筛选 [5]。
流匹配设计器 是基于分数的扩散之外的新兴替代方案：在 SE(3) 流形上用连续归一化流（流匹配）训练，提供更直的概率路径与更快的骨架生成采样，是 2025–2026 的活跃研究方向 [4]。

统一思想是 在几何流形上做等变生成建模：蛋白质存在于三维空间，因此生成过程必须尊重三维空间的对称性，而非从数据中学习它们。

3. 序列与基因组基础模型

这里"基础模型"一词最名副其实——在原始序列上自监督预训练、再适配到众多任务的单一模型。

ESM-2 / ESM3。 ESM-2 是一个掩码蛋白质语言模型，其内部表征编码了结构 [2]。ESM3（EvolutionaryScale，2024）是 多模态生成式 后继者，在序列、结构与功能上联合推理，据该实验室称在 27.8 亿蛋白质上训练。在一项被广泛引用的演示中，它生成了一个与已知 GFP 约 58% 同一性的新荧光蛋白——被描述为相当于模拟约 5 亿年的进化 [6]。
Evo / Evo2（Arc Institute + NVIDIA，2025）是 DNA 基础模型，建立在 StripedHyena 架构（用于超长上下文的卷积/注意力混合体）之上。据报告 Evo 2 有 70 亿和 400 亿参数版本，在约 9.3 万亿 DNA 碱基对、超过 128,000 个物种上训练，上下文窗口可达约 100 万核苷酸——足以一次读完整个微生物基因组或人类染色体。它报告了最先进的零样本变异分类，例如在 BRCA1 上 [7]。
AlphaGenome（DeepMind，2025）面向 调控基因组：它接收最多约 1 Mb 的 DNA，预测数千条功能基因组轨道（表达、染色质可及性、组蛋白修饰、转录因子结合、接触图、剪接），分辨率最高达单碱基。据报告它在 26 项变异效应评估中有 24 项匹配或超过最佳外部模型，且是唯一能联合预测所有模态的受评模型 [8]。
Nucleotide Transformer（InstaDeep，Nature Methods 2024）是人类/多物种基因组语言模型族（报告 5000 万–25 亿参数），其中多物种 25 亿变体在启动子与剪接任务上是同队最强 [9b]。v3 系列将上下文扩展至约 1 Mb。

方法表

模型	架构	主要任务	年份
AlphaFold 2	Evoformer + 结构模块（基于 MSA）	单链结构	2021
AlphaFold 3	Pairformer + 原子扩散	多分子复合物结构	2024
ESMFold / ESM-2	蛋白质 LM → 折叠头（单序列）	快速结构预测	2022–23
ESM3	多模态掩码/生成式 LM	序列+结构+功能生成	2024
RFdiffusion	SE(3) 等变扩散（RoseTTAFold）	骨架生成	2023
ProteinMPNN	消息传递图神经网络	逆折叠（序列设计）	2022
AlphaProteo	生成式结合体设计	从头结合体	2024
Evo 2	StripedHyena（长上下文混合体）	DNA/RNA/蛋白质生成与预测	2025
AlphaGenome	统一 DNA 序列模型	调控轨道 + 变异效应	2025
Nucleotide Transformer	Transformer（k-mer / 单碱基）	基因组下游任务	2023–24
scGPT / Geneformer	基因 token 上的 Transformer	单细胞表征	2023–24

对比 — 结构预测器

性质	AlphaFold 2	AlphaFold 3	ESMFold
需要 MSA？	是	是（保留）	否（单序列）
坐标生成器	结构模块	扩散（原子级）	折叠头
多分子复合物	有限（Multimer）	原生（蛋白/核酸/配体/离子）	有限
相对速度	基准	较慢（采样）	约快 10×（报告）[2]
关键弱点	静态；依赖 MSA	静态；无序区幻觉 [9]	难序列准确度较低

4. 单细胞 / 组学基础模型 — 诚实的争论

scGPT 与 Geneformer 将 LM 范式应用于单细胞转录组学，把基因/表达 token 化，在数千万细胞上预训练。其承诺是一个可复用的"虚拟细胞"嵌入，用于聚类、注释与扰动预测。

2025 年坦率的发现是：这一承诺 尚未确立。多项基准报告，在 零样本 设定下这些模型在批次整合与细胞类型聚类等任务上，可被远更简单的基线匹配甚至击败—— 高变基因选择、scVI 或 Harmony 批次校正 [10]。提出的解释包括：掩码 LM 预训练可能无法产生有用的 细胞级 嵌入，或模型可能并未真正学会预训练任务；值得注意的是，更大的预训练数据并未可靠地带来提升 [10]。要点是方法论上的谦逊——"基础模型"的标签本身并不能击败调好的任务专用基线，严谨的基线是必须的。

通用 vs 专用

生物学是 最接近拥有真正基础模型 的领域，原因取决于数据形态。蛋白质与 DNA 序列（a）体量巨大，（b）天然 可自监督（掩盖一个残基/碱基并预测它），（c）携带与结构和功能相关的深层进化信号。这与让语言模型奏效的前提条件相同，只是移植进了生物学——这正是为何序列模型（ESM、Evo、NT）跨任务的泛化远比材料或流体力学模型更有说服力。

但"基础性"并不均匀。序列空间已被攻克；细胞与 调控基因组 尚未。 AlphaGenome 与 Evo 2 推向全基因组上下文，但把多组学、动态、空间的细胞状态整合进一个模型仍是开放问题——而上述单细胞结果表明规模本身并不充分。前沿正从 单一分子 转向系统。

开放问题

动态而非快照。 结构预测器输出静态构象；系综、变构与折叠动力学基本未解。
无序与幻觉。 内在无序区域既具生物学重要性，又是模型自信幻觉出有序的地方 [9]。
可信的生成式生物学。 从头设计成功率在上升，但实验验证仍是唯一的真值；计算指标可被钻空子。
真正的细胞基础模型。 稳健击败简单基线、并预测 扰动响应 仍是开放问题 [10]。
多模态整合。 把序列、结构、功能、调控与细胞状态统一进一个模型——"虚拟细胞"目标——尚未实现。
评估严谨性。 本领域需要无泄漏、以基线锚定的基准；乐观的零样本声明已多次在独立复测中失败。

来源

AlphaFold 3 — Accurate structure prediction of biomolecular interactions with AlphaFold 3, Nature 630:493–500 (2024). https://www.nature.com/articles/s41586-024-07487-w
ESMFold / ESM-2 — Evolutionary-scale prediction of atomic-level protein structure with a language model, Science (2023). https://www.science.org/doi/10.1126/science.ade2574
RFdiffusion / SE(3) 等变扩散 — 基于坐标系的等变蛋白质扩散背景。https://arxiv.org/pdf/2302.02277
RFdiffusion → ProteinMPNN 流程与流匹配设计 — 生成式蛋白质设计综述。https://www.sciencedirect.com/science/article/pii/S0959440X24000216
AlphaProteo — De novo design of high-affinity protein binders with AlphaProteo (2024). https://arxiv.org/abs/2409.08022
ESM3 — Simulating 500 million years of evolution with a language model, Science (2024). https://www.science.org/doi/10.1126/science.ads0018
Evo 2 — Arc Institute / NVIDIA DNA 基础模型发布（2025）。https://arcinstitute.org/news/evo2
AlphaGenome — Advancing regulatory variant effect prediction with AlphaGenome, Nature (2025). https://www.nature.com/articles/s41586-025-10014-0
AF3 无序区幻觉 — Hallucinations in AlphaFold3 for Intrinsically Disordered Proteins (2025). https://arxiv.org/pdf/2510.15939 9b. Nucleotide Transformer — Building and evaluating robust foundation models for human genomics, Nature Methods (2024). https://www.nature.com/articles/s41592-024-02523-z
单细胞 FM 局限 — Zero-shot evaluation reveals limitations of single-cell foundation models, Genome Biology (2025). https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03574-x