谷歌AlphaGenome横空出世,40亿年生命代码一键破解,或再夺诺奖

AI快讯 2025-06-28
前有 AlphaFold 破解蛋白质之谜,今有 AlphaGenome 揭示 DNA 天书。谷歌 DeepMind 发布了一款革命性的 AI 工具 AlphaGenome,并公布了长达 103 页的详细技术报告。这一成果能成功预测基因突变,一次即可读取 100 万个 DNA 碱基,在精度方面超越其他模型,为解读生命密码带来全新突破。


基因组如同生命的蓝图,存在于每一个细胞中,这套 DNA 指令集主导着生命体的生长繁殖、外观功能以及抵御疾病的能力等方面。2003 年人类基因组测序完成,让人类首次看到了 DNA 的全貌,但如何解读这些指令,以及微小的 DNA 变异如何影响生命轨迹,至今仍是生物学领域尚未解开的谜题。如今,AlphaGenome 的出现,有望改写这一局面。


在解密生命 “密码” 领域,谷歌 DeepMind 早有布局。5 年前推出的蛋白质预测模型 AlphaFold,在业界引起巨大反响,还登上了《Nature》《Science》年度十大科学发现榜单。从初代 AlphaFold 到 AlphaFold 3,实现了跨越式发展,成功预测了人类 98.5% 的蛋白质,并荣获 2024 年诺贝尔奖。这一成果催生了专注于药物发现的衍生公司 Isomorphic Labs,引领了利用 AI 设计新药的潮流。


而 AlphaGenome 的诞生,进一步拓展了 AI 在 DNA 领域的研究。人类基因约有 30 亿个碱基,其中编码蛋白质的序列不到 2%,其余 98% 的非编码区对调控基因活性至关重要,还包含大量与疾病相关的变异位点。但直到现在,生物学家仍难以完全弄清楚这些非编码区是如何运作的。AlphaGenome 为解读这些广泛的非编码序列及其内部变异提供了新视角,堪称该领域的里程碑式突破。从此,科研人员首次拥有了一个统一模型,能在各类基因组任务中同时实现长程上下文关联、碱基级精度和最先进的性能表现。


AlphaGenome 能够接收长达 100 万个碱基对的 DNA 序列作为输入,预测数千种表征其调控活性的分子特性。通过对比突变序列与原始序列的预测结果,还能评估基因变异或突变带来的影响。其预测范围广泛,涵盖在不同细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA 的生成数量,以及哪些 DNA 碱基可访问、哪些在空间上相互靠近、哪些与特定蛋白质结合等方面。


这款模型之所以能够实现多方面的精准预测,得益于其独特的核心架构。它首先通过卷积层初步检测基因组序列中的短模式,再利用 Transformer 架构在整个序列的任意位置高效传递信息,最后经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测 。在训练过程中,针对单个序列的庞大计算量会分散到多个互联的张量处理单元(TPU)上协同完成。该模型基于谷歌先前的基因组学模型 Enformer 构建,并与专注于分类蛋白质编码区内变异影响的 AlphaMissense 模型形成互补。其训练数据来源于 ENCODE、GTEx、4D Nucleome 和 FANTOM5 等多个大型公共科研项目,这些项目通过实验测量并覆盖了数百种人类及小鼠细胞与组织中基因调控的多种关键维度。


与现有的 DNA 序列模型相比,AlphaGenome 具备多项显著优势:


  • 兼顾长序列与高分辨率:处理长序列对于覆盖远距离基因调控区意义重大,碱基级别的分辨率则有助于捕捉精细的生物学细节。以往的模型在序列长度和分辨率之间难以平衡,限制了其联合建模和准确预测的能力范围。而谷歌的技术突破克服了这一局限,且训练一个完整的 AlphaGenome 模型(未经蒸馏)仅需 4 小时,算力开销仅为最初训练 Enformer 模型时的一半。目前,AlphaGenome 已能实现对长达 100 万个 DNA 碱基对序列的分析,并以单个碱基的分辨率进行精细预测。
  • 全面的多维度预测:通过解锁对长输入序列的高分辨率预测能力,AlphaGenome 可以对更多样化的生物学维度进行预测,为科学家提供了关于基因调控复杂过程更全面的信息。
  • 变异效应的高效评估:除了预测多种分子特性,AlphaGenome 能在短短一秒内高效评估某个基因变异对所有这些特性的影响。它通过对比突变序列与原始序列的预测结果,并针对不同维度采用相应分析方法,高效地量化这种差异。
  • 创新的剪接点建模:许多罕见的遗传性疾病,如脊髓性肌萎缩症和某些类型的囊性纤维化,都与 RNA 剪接过程的错误有关。RNA 剪接是指 RNA 分子的一部分被移除,剩余两端再重新连接的过程。AlphaGenome 首次实现直接从 DNA 序列出发预测剪接点,并将其用于变异效应预测,为深入理解遗传变异对 RNA 剪接的影响提供了全新视角。


在基因组学基准测试中,AlphaGenome 表现卓越。无论是预测 DNA 分子中哪些部分会在空间上相互靠近,判断某个基因变异是会增强或减弱基因表达,还是预测基因变异是否会改变其剪接模式等任务,该模型均刷新了当前最优水平(SOTA)。在生成单个 DNA 序列的预测时,24 项评估中有 22 项的表现超越了当前最优的外部模型;在预测基因变异的调控效应时,26 项评估中有 24 项的表现达到或超过了顶尖的外部模型。值得一提的是,参与比较的外部模型大多是为单一任务专门优化的,而 AlphaGenome 是唯一能够同时对所有评估维度进行联合预测的模型,充分彰显了其强大的通用性。


AlphaGenome 的创新不仅体现在准确性上,还在于其统一性。以往科学家可能需要使用 10 多个模型,才能了解一个突变的作用,而现在借助 AlphaGenome,通过一次 API 调用,就能以全分辨率同时探究某个基因变异对多种不同调控维度的影响。这大大加快了科学家提出并验证科学假说的速度,他们无需再为研究不同维度而调用多个不同模型。此外,AlphaGenome 的出色表现表明,它已在基因调控的框架下,学习到了一种相对通用的 DNA 序列特征表示,为更广泛的科研社区提供了坚实的基础。科研人员可以在特定场景下,基于自己的数据集对其进行适配和微调,从而更有效地解决独特的科研难题。而且,这种统一的方法为未来提供了一个灵活且可扩展的架构,通过扩充训练数据,AlphaGenome 的能力还能进一步拓展,以获得更优的性能、覆盖更多物种,或纳入额外的生物学维度,让模型变得更加全面和强大。


毫无疑问,AlphaGenome 强大的预测能力将为多个科研领域的未来研究提供有力支持:


  • 加深对疾病的理解:通过更精准地预测基因功能扰动,AlphaGenome 能帮助研究人员更精确地定位疾病的潜在根源,更好地阐释与特定性状相关的变异所造成的功能性影响,从而有望揭示新的治疗靶点。谷歌认为,该模型尤其适合用于研究那些可能引发严重后果的罕见变异,例如导致孟德尔遗传病的变异。
  • 赋能合成生物学:模型的预测结果可用于指导设计具备特定调控功能的合成 DNA。比如,可以设计出仅在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的 DNA 序列。
  • 推动生物学基础研究:AlphaGenome 能够协助绘制基因组的关键功能元件图谱并阐明其作用,识别调控特定细胞功能所必需的核心 DNA 指令,从而加速人类对基因组的理解。例如,在一项针对 T 细胞急性淋巴细胞白血病(T - ALL)患者的研究中,科研人员发现基因组特定位点的突变,借助 AlphaGenome,研究人员预测这些突变会通过引入一个 MYB DNA 结合基序,异常激活邻近的 TAL1 基因,这一预测结果与已知的致病机制相吻合,充分展现了 AlphaGenome 将特定非编码变异与致病基因联系起来的强大能力。


伦敦大学学院的马克・曼苏尔教授认为,AlphaGenome 将成为该领域的强大工具。确定不同非编码变异的重要性极具挑战性,尤其是在大规模研究的背景下,而这款工具能够帮助科研人员建立更清晰的联系,从而更深入地理解癌症等复杂疾病。


每一次失败的疗法、每一种罕见的疾病、每一种复杂性状,很多都源于被误读的 DNA。如今,借助 AlphaGenome,人类对生命系统的认知更加清晰。当能够清晰洞察生命系统的全貌时,就意味着可以开始重新设计和干预,生物学也不再神秘莫测,逐渐变得可编程。从 “认知” 到 “掌控” 的这一重要跃迁中,AlphaGenome 无疑是关键的转折点。或许在未来,它还有望助力 DeepMind 再次斩获诺贝尔奖,推动生命科学领域迈向新的高度。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章