一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世

一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世

文章图片

一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世

智东西
作者 | 李水青
编辑 | 心缘
智东西6月25日报道 , 今天 , 谷歌DeepMind推出AlphaGenome , 一款能帮助人们快速预测基因变化影响的AI模型 。
AlphaGenome就像一台“观察人类DNA的AI显微镜” , 以长达100万个碱基对的长DNA序列作为输入 , 预测数千种表征其调控活性的分子特性 , 在超20项广泛的基因组预测基准中实现了最先进的性能 。
与已有的DNA序列模型相比 , AlphaGenome具有几个独特的特点:支持高分辨率的长序列上下文、综合多模态预测、高效变异评分和新颖的剪接连接模型 。
当下 , 谷歌通过AlphaGenome API提供AlphaGenome预览版 , 供非商业研究使用 , 并计划在未来发布该模型 。
纪念斯隆·凯特琳癌症中心的博士Caleb Lareau说:“这是该领域的一个里程碑 。 我们首次拥有一个能够统一远程上下文、基础精度和各种基因组任务的尖端性能的单一模型 。 ”
论文地址:
https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

一、百万DNA序列输入 , 预测数千种分子特性AlphaGenome模型以长达100万个碱基对的长DNA序列作为输入 , 预测数千种表征其调控活性的分子特性 。 它还可以通过比较突变序列与未突变序列的预测结果来评估遗传变异或突变的影响 。
预测的属性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的RNA数量 , 以及哪些DNA碱基可接近、彼此靠近或与某些蛋白质结合 。 训练数据来源于大型公共联盟 , 包括ENCODE、GTEx、4D Nucleome和FANTOM5 , 这些联盟通过实验测量了这些属性 , 涵盖了数百种人类和小鼠细胞类型和组织中基因调控的重要模式 。
以下动画显示AlphaGenome将一百万个DNA字母作为输入 , 并预测不同组织和细胞类型的不同分子特性 。
AlphaGenome架构使用卷积层初步检测基因组序列中的短模式 , 使用转换器在序列的所有位置传递信息 , 最后使用一系列层将检测到的模式转化为不同模态的预测 。 在训练过程中 , 此计算分布在单个序列的多个互连张量处理单元(TPU)上 。
该模型以谷歌之前的基因组学模型Enformer为基础 , 并与AlphaMissense相辅相成 , 后者专门对蛋白质编码区内变异的影响进行分类 。 这些区域覆盖了基因组的2% 。 其余98%的区域称为非编码区 , 对调控基因活动至关重要 , 并包含许多与疾病相关的变异 。 AlphaGenome为解读这些广泛的序列及其内部的变异提供了一个新的视角 。

二、高分辨率的长序列上下文 , 综合多模态预测与已有的DNA序列模型相比 , AlphaGenome具有几个独特的特点:
1、高分辨率的长序列上下文
谷歌的模型分析多达一百万个DNA碱基 , 并以单个碱基的分辨率进行预测 。 长序列上下文对于覆盖远处调控基因的区域至关重要 , 而碱基分辨率对于捕捉精细的生物学细节至关重要 。
先前的模型必须在序列长度和分辨率之间做出权衡 , 这限制了它们能够联合建模并准确预测的模态范围 。 谷歌的技术进步解决了这一限制 , 且无需显著增加训练资源——训练单个AlphaGenome模型(未进行数据蒸馏)耗时4小时 , 且所需的计算预算仅为训练原始Enformer模型的一半 。
2、综合多模态预测
通过解锁长输入序列的高分辨率预测 , AlphaGenome能够预测最多样化的模态 。 由此 , AlphaGenome为科学家提供了有关基因调控复杂步骤的更全面的信息 。
3、高效变异评分
除了预测各种分子特性外 , AlphaGenome还能在一秒钟内高效地评估基因变异对所有这些特性的影响 。 它通过对比突变序列和未突变序列的预测 , 并针对不同模式使用不同的方法高效地总结这种对比来实现这一点 。
4、新颖的剪接连接模型
许多罕见遗传疾病 , 例如脊髓性肌萎缩症和某些形式的囊性纤维化 , 都可能由RNA剪接错误引起 。 RNA剪接是指RNA分子的部分被移除 , 或“剪接掉” , 然后剩余的末端重新连接在一起的过程 。 AlphaGenome首次能够直接从序列中明确模拟这些连接的位置和表达水平 , 从而更深入地了解遗传变异对RNA剪接的影响 。

三、超20项基准测试中表现最佳AlphaGenome在广泛的基因组预测基准中实现了最先进的性能 , 例如预测DNA分子的哪些部分将会靠近 , 遗传变异是否会增加或减少基因的表达 , 或者它是否会改变基因的剪接模式 。
下方条形图显示了AlphaGenome在选定的DNA序列和变异效应任务上的相对改进 , 并与每个类别中当前最佳方法的结果进行了比较 。
在对单个DNA序列进行预测时 , AlphaGenome在24项评估中 , 有22项的表现优于市面上已有的最佳模型 。 在预测变异的调控效应时 , 它在26项评估中 , 有24项的表现与最佳外部模型相当甚至超过了最佳外部模型 。
本次比较涵盖了针对特定任务的模型 。 AlphaGenome是唯一能够联合预测所有评估模态的模型 , 彰显了其通用性 。

四、统一模型 , 更快地生成和测试假设AlphaGenome的通用性使科学家能够通过单个API调用同时探索一个变异对多种模式的影响 。 这意味着科学家可以更快地生成和测试假设 , 而无需使用多个模型来研究不同的模式 。
此外 , AlphaGenome的出色表现表明 , 它已经在基因调控的背景下学习到了相对通用的DNA序列表征 。 这为更广泛的研究社区奠定了坚实的基础 。 一旦该模型全面发布 , 科学家们将能够在自己的数据集上对其进行调整和微调 , 以更好地解决他们独特的研究问题 。
最后 , 这种方法为未来提供了一个灵活且可扩展的架构 。 通过扩展训练数据 , AlphaGenome的功能可以得到扩展 , 从而获得更好的性能 , 覆盖更多物种 , 或包含更多模态 , 使模型更加全面 。

五、助力疾病理解、基础研究等 【一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世】AlphaGenome的预测能力可以帮助多种研究途径:
1、疾病理解:通过更准确地预测基因突变 , AlphaGenome可以帮助研究人员更精准地查明疾病的潜在病因 , 并更好地解释与某些性状相关的变异的功能影响 , 从而可能发现新的治疗靶点 。 我们认为该模型尤其适用于研究可能产生巨大影响的罕见变异 , 例如导致罕见孟德尔遗传病的变异 。
2、合成生物学:它的预测可用于指导具有特定调节功能的合成DNA的设计——例如 , 仅激活神经??细胞中的基因 , 而不是肌肉细胞中的基因 。
3、基础研究:它可以通过协助绘制基因组的关键功能元素并定义其作用 , 识别调节特定细胞类型功能的最重要DNA指令 , 加速我们对基因组的理解 。
例如 , 谷歌使用AlphaGenome研究了一种癌症相关突变的潜在机制 。 在一项针对T细胞急性淋巴细胞白血?。 ═-ALL)患者的现有研究中 , 研究人员观察到基因组特定位置的突变 。 利用AlphaGenome , 他们预测这些突变会通过引入MYB DNA结合基序来激活附近的TAL1基因 , 这复制了已知的疾病机制 , 并凸显了AlphaGenome将特定非编码变异与疾病基因关联起来的能力 。
伦敦大学学院马克·曼苏尔教授说:“AlphaGenome将成为该领域的一个强大工具 。 确定不同非编码变异之间的相关性可能极具挑战性 , 尤其是在大规模研究的情况下 。 该工具将提供关键的线索 , 帮助我们更好地理解癌症等疾病 。 ”

结语:AI基因预测重要一步AlphaGenome标志着AI基因预测向前迈出了重要一步 , 但仍有其局限性 。
与其他基于序列的模型一样 , 准确捕捉极远距离调控元件的影响(如那些相距超过10万 DNA 碱基的调控元件)仍然是一个尚未解决的挑战 。
同时 , 谷歌尚未设计或验证AlphaGenome用于个人基因组预测 。 虽然AlphaGenome可以预测分子结果 , 但它并不能全面展现基因变异如何导致复杂的性状或疾病 。

    推荐阅读