生物学中的 AI — 蛋白质、基因组与细胞
生物学可以说是 AI 从演示走向基础设施最快的科学领域。原因是结构性的:生命以 序列 编码自身——蛋白质是氨基酸字符串,基因组是核苷酸字符串——而数十年的 高通量测序已产出数十亿条此类字符串,可以自监督地学习,这恰恰是大型神经模型最 擅长的范式。本模块综述定义 2025–2026 前沿的 AI/ML 方法:结构预测、生成式 蛋白质设计、序列/基因组基础模型,以及争议更大的单细胞模型。本文刻意聚焦 方法与系统,而非湿实验生物学本身。跨领域框架见 ai-for-science,紧密耦合 的分子化学侧见 aifs-chemistry。
1. 蛋白质结构预测
从序列预测三维蛋白质结构是本领域的突破性用例。AlphaFold 2(2021)使用 Evoformer,在多序列比对(MSA)与残基对表征上联合推理,再由一个具备 SE(3) 感知 的"结构模块"输出坐标。
AlphaFold 3(2024)是一次重大的架构重设计。它用一个 扩散网络 取代了 手工设计的结构模块,直接在原子坐标上运作——概念上类似图像扩散,从原子噪声云 出发,经多步去噪得到最终结构 [1]。决定性的变化在于 范围:AF3 在单一统一框架 内预测涵盖蛋白质、核酸、小分子配体、离子与修饰残基的复合物联合结构。据报告, 其在蛋白质–配体相互作用上的准确度远高于专门的对接工具,在蛋白质–核酸相互作用 上高于核酸专用预测器,在抗体–抗原准确度上优于 AlphaFold-Multimer v2.3 [1]。
ESMFold(Meta AI,2022–2023)走了另一条路:它从 单条序列 折叠,不用 MSA 或模板,通过蛋白质语言模型 ESM-2(报告变体最大达 150 亿参数)读出结构 [2]。据报告其推理速度约比 AlphaFold 2 快一个数量级,这使得 6 亿多蛋白质的 ESM Metagenomic Atlas 成为可能;对语言模型有把握的序列准确度具竞争力,其余则较弱 [2]。
当前局限。 它们仍是 静态 结构预测器——构象动力学、变构与折叠路径都不在 范围内 [1]。独立分析报告 AF3 会在 内在无序区域幻觉出有序结构,某研究报告 相对 DisProt 有相当比例的无序残基错配 [9]。手性与异常化学计量仍是弱点,对缺乏 进化信号的序列准确度也会下降。
2. 蛋白质设计 / 从头设计
预测是从序列读出结构,设计 则相反且具生成性:为目标功能发明一个新蛋白质。
- RFdiffusion(Baker 实验室)是建立在 RoseTTAFold 骨架上的去噪扩散模型。 它将每个残基表示为刚性坐标系(一个 Cα 坐标加一个 N–Cα–C 取向),并运行 SE(3) 等变 扩散,使输出对全局旋转/平移保持不变 [3][4]。它在基序、对称性 或结合靶标的条件下生成蛋白质 骨架。
- ProteinMPNN 解决互补的 逆折叠 问题:给定骨架,设计能折叠成它的氨基酸 序列。经典流程是 RFdiffusion → ProteinMPNN:先几何引擎,再序列设计器 [4]。
- AlphaProteo(DeepMind,2024)是直接针对 从头结合体 问题的模型族。在 报告的七个靶蛋白集合上,它实现了比既有方法好 3 至 300 倍的结合亲和力与更高 的实验成功率,生成了对 VEGF-A 和一个 SARS-CoV-2 蛋白等靶标的结合体,往往 只需一轮中通量筛选 [5]。
- 流匹配设计器 是基于分数的扩散之外的新兴替代方案:在 SE(3) 流形上用连续 归一化流(流匹配)训练,提供更直的概率路径与更快的骨架生成采样,是 2025–2026 的活跃研究方向 [4]。
统一思想是 在几何流形上做等变生成建模:蛋白质存在于三维空间,因此生成过程 必须尊重三维空间的对称性,而非从数据中学习它们。
3. 序列与基因组基础模型
这里"基础模型"一词最名副其实——在原始序列上自监督预训练、再适配到众多任务的 单一模型。
- ESM-2 / ESM3。 ESM-2 是一个掩码蛋白质语言模型,其内部表征编码了结构 [2]。ESM3(EvolutionaryScale,2024)是 多模态生成式 后继者,在序列、 结构与功能上联合推理,据该实验室称在 27.8 亿蛋白质上训练。在一项被广泛引用 的演示中,它生成了一个与已知 GFP 约 58% 同一性的新荧光蛋白——被描述为相当于 模拟约 5 亿年的进化 [6]。
- Evo / Evo2(Arc Institute + NVIDIA,2025)是 DNA 基础模型,建立在 StripedHyena 架构(用于超长上下文的卷积/注意力混合体)之上。据报告 Evo 2 有 70 亿和 400 亿参数版本,在约 9.3 万亿 DNA 碱基对、超过 128,000 个物种上训练, 上下文窗口可达约 100 万核苷酸——足以一次读完整个微生物基因组或人类染色体。 它报告了最先进的零样本变异分类,例如在 BRCA1 上 [7]。
- AlphaGenome(DeepMind,2025)面向 调控基因组:它接收最多约 1 Mb 的 DNA,预测数千条功能基因组轨道(表达、染色质可及性、组蛋白修饰、转录因子 结合、接触图、剪接),分辨率最高达单碱基。据报告它在 26 项变异效应评估中有 24 项匹配或超过最佳外部模型,且是唯一能联合预测所有模态的受评模型 [8]。
- Nucleotide Transformer(InstaDeep,Nature Methods 2024)是人类/多物种 基因组语言模型族(报告 5000 万–25 亿参数),其中多物种 25 亿变体在启动子与 剪接任务上是同队最强 [9b]。v3 系列将上下文扩展至约 1 Mb。
方法表
| 模型 | 架构 | 主要任务 | 年份 |
|---|---|---|---|
| AlphaFold 2 | Evoformer + 结构模块(基于 MSA) | 单链结构 | 2021 |
| AlphaFold 3 | Pairformer + 原子 扩散 | 多分子复合物结构 | 2024 |
| ESMFold / ESM-2 | 蛋白质 LM → 折叠头(单序列) | 快速结构预测 | 2022–23 |
| ESM3 | 多模态掩码/生成式 LM | 序列+结构+功能生成 | 2024 |
| RFdiffusion | SE(3) 等变扩散(RoseTTAFold) | 骨架生成 | 2023 |
| ProteinMPNN | 消息传递图神经网络 | 逆折叠(序列设计) | 2022 |
| AlphaProteo | 生成式结合体设计 | 从头结合体 | 2024 |
| Evo 2 | StripedHyena(长上下文混合体) | DNA/RNA/蛋白质生成与预测 | 2025 |
| AlphaGenome | 统一 DNA 序列模型 | 调控轨道 + 变异效应 | 2025 |
| Nucleotide Transformer | Transformer(k-mer / 单碱基) | 基因组下游任务 | 2023–24 |
| scGPT / Geneformer | 基因 token 上的 Transformer | 单细胞表征 | 2023–24 |
对比 — 结构预测器
| 性质 | AlphaFold 2 | AlphaFold 3 | ESMFold |
|---|---|---|---|
| 需要 MSA? | 是 | 是(保留) | 否(单序列) |
| 坐标生成器 | 结构模块 | 扩散(原子级) | 折叠头 |
| 多分子复合物 | 有限(Multimer) | 原生(蛋白/核酸/配体/离子) | 有限 |
| 相对速度 | 基准 | 较慢(采样) | 约快 10×(报告)[2] |
| 关键弱点 | 静态;依赖 MSA | 静态;无序区幻觉 [9] | 难序列准确度较低 |
4. 单细胞 / 组学基础模型 — 诚实的争论
scGPT 与 Geneformer 将 LM 范式应用于单细胞转录组学,把基因/表达 token 化,在数千万细胞上预训练。其承诺是一个可复用的"虚拟细胞"嵌入,用于聚类、 注释与扰动预测。
2025 年坦率的发现是:这一承诺 尚未确立。多项基准报告,在 零样本 设定下 这些模型在批次整合与细胞类型聚类等任务上,可被远更简单的基线匹配甚至击败—— 高变基因选择、scVI 或 Harmony 批次校正 [10]。提出的解释包括:掩码 LM 预训练 可能无法产生有用的 细胞级 嵌入,或模型可能并未真正学会预训练任务;值得注意 的是,更大的预训练数据并未可靠地带来提升 [10]。要点是方法论上的谦逊——"基础 模型"的标签本身并不能击败调好的任务专用基线,严谨的基线是必须的。
通用 vs 专用
生物学是 最接近拥有真正基础模型 的领域,原因取决于数据形态。蛋白质与 DNA 序列(a)体量巨大,(b)天然 可自监督(掩盖一个残基/碱基并预测它), (c)携带与结构和功能相关的深层进化信号。这与让语言模型奏效的前提条件相同, 只是移植进了生物学——这正是为何序列模型(ESM、Evo、NT)跨任务的泛化远比材料 或流体力学模型更有说服力。
但"基础性"并不均匀。序列空间已被攻克;细胞 与 调控基因组 尚未。 AlphaGenome 与 Evo 2 推向全基因组上下文,但把多组学、动态、空间的细胞状态整合 进一个模型仍是开放问题——而上述单细胞结果表明规模本身并不充分。前沿正从 单一分子 转向 系统。
开放问题
- 动态而非快照。 结构预测器输出静态构象;系综、变构与折叠动力学基本未解。
- 无序与幻觉。 内在无序区域既具生物学重要性,又是模型自信幻觉出有序的地方 [9]。
- 可信的生成式生物学。 从头设计成功率在上升,但实验验证仍是唯一的真值; 计算指标可被钻空子。
- 真正的细胞基础模型。 稳健击败简单基线、并预测 扰动响应 仍是开放问题 [10]。
- 多模态整合。 把序列、结构、功能、调控与细胞状态统一进一个模型——"虚拟 细胞"目标——尚未实现。
- 评估严谨性。 本领域需要无泄漏、以基线锚定的基准;乐观的零样本声明已多次 在独立复测中失败。
来源
- AlphaFold 3 — Accurate structure prediction of biomolecular interactions with AlphaFold 3, Nature 630:493–500 (2024). https://www.nature.com/articles/s41586-024-07487-w
- ESMFold / ESM-2 — Evolutionary-scale prediction of atomic-level protein structure with a language model, Science (2023). https://www.science.org/doi/10.1126/science.ade2574
- RFdiffusion / SE(3) 等变扩散 — 基于坐标系的等变蛋白质扩散背景。https://arxiv.org/pdf/2302.02277
- RFdiffusion → ProteinMPNN 流程与流匹配设计 — 生成式蛋白质设计综述。https://www.sciencedirect.com/science/article/pii/S0959440X24000216
- AlphaProteo — De novo design of high-affinity protein binders with AlphaProteo (2024). https://arxiv.org/abs/2409.08022
- ESM3 — Simulating 500 million years of evolution with a language model, Science (2024). https://www.science.org/doi/10.1126/science.ads0018
- Evo 2 — Arc Institute / NVIDIA DNA 基础模型发布(2025)。https://arcinstitute.org/news/evo2
- AlphaGenome — Advancing regulatory variant effect prediction with AlphaGenome, Nature (2025). https://www.nature.com/articles/s41586-025-10014-0
- AF3 无序区幻觉 — Hallucinations in AlphaFold3 for Intrinsically Disordered Proteins (2025). https://arxiv.org/pdf/2510.15939 9b. Nucleotide Transformer — Building and evaluating robust foundation models for human genomics, Nature Methods (2024). https://www.nature.com/articles/s41592-024-02523-z
- 单细胞 FM 局限 — Zero-shot evaluation reveals limitations of single-cell foundation models, Genome Biology (2025). https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03574-x