1990 年人类基因组计划的启动伴随着希望,即当完成时,由此产生的完整人类基因组序列将有助于建造某种罗塞塔石碑。一种将人类差异与基因本身的变化联系起来的方法。
然而,随着项目的进展,这种希望破灭了。新解码的基因组显示,只有一小部分——大约 1%——实际上是由基因组成的。剩下的 99% 被指定为非编码区域,这很快成为基因组学研究人员的新焦点。科学家们很快了解到,曾经被嘲笑为“垃圾 DNA”的基因组非编码部分具有以重要方式影响基因组编码区域的潜力,即使它们本身没有基因。但是,在特定的 DNA 序列和由此产生的性状或疾病之间划清界限已被证明是一项艰巨的任务。
“这是生物学中最基本的问题之一,但也是一个在考虑到人类多样性的同时在全基因组范围内解决的极具挑战性的问题,”计算生物学中心基因组学副主任Olga Troyanskaya说( CCB) 在Flatiron Institute 工作,同时也是普林斯顿大学 Lewis-Sigler Institute for Integrative Genomics 的计算机科学教授和成员。
近年来,表观遗传学——改变染色体而不改变其基础 DNA 序列的调节机制的术语——已成为将 DNA 变异与功能联系起来的有前途的因素。事实上,已经发现表观遗传机制是越来越多的健康状况的基础,从癌症到衰老的影响再到不孕不育。
通过利用科学界现在可用的表观遗传数据的广度,Troyanskaya 和她的团队创建了一个预测计算模型,该模型可能会带来期待已久的罗塞塔石碑。称为 Sei(发音为“say”),以一种须鲸命名,与基于预测 DNA 序列的先前模型相比,该模型在广度和准确性方面有了重大飞跃。 2022 年 7 月,Troyanskaya 和Nature Genetics的合作者报道了这一消息。
“Sei 能够以前所未有的规模区分在分子水平上具有重要功能的 DNA 变异,”Troyanskaya 实验室的研究科学家 Chandra Theesfeld 说。虽然该平台才刚刚推出几个月,但 Sei 已经在缩小了解 DNA 序列和了解该序列实际作用之间的差距。
大数据是 Sei 的基础
在 Sei 能够预测非编码 DNA 序列如何调节基因之前,它首先必须研究现实生活中的表观遗传学数据集。这些数据集是根据先前发表的研究收集和整理的,有效地充当了单个 DNA 序列及其相应调控活动的字典。由于 DNA 测序变得快速且便宜,表观遗传数据以前所未有的规模大量存在。事实上,这些庞大的数据存储库的存在首先帮助启发了 Sei。 “我们想:我们能否利用大量公开可用的数据来解释全基因组的表观遗传调控?”博士 Kathy Chen 说。 Troyanskaya 实验室的学生,熨斗研究所的访问学者,自然遗传学论文的第一作者。
研究团队通过表观遗传概况目录中的数据来训练 Sei,这些表观遗传概况列出了与特定 DNA 序列相关的表观遗传特征的位置和类型。总共有 21,907 个图谱,是迄今为止最大的图谱,来自 1,300 多个细胞系和组织,涵盖了整个人类基因组。这些数据由Cistrome 项目、 Roadmap Epigenomics和ENCODE等大型财团收集和处理,这些财团使用实验分析来确定表观遗传信息。如果 Sei 正在学习阅读,这些数据将代表模型将学习的第一个单词。
一旦 Sei 了解了庞大的表观遗传词典,研究人员便将该模型应用于整个人类基因组参考序列。研究人员希望 Sei 不仅仅是 DeepSEA 的大数据版本,DeepSEA 于 2015 年基于近 1,000 个表观基因组图谱构建,并且是首批基于深度学习的序列模型之一,可以准确描述 DNA 序列的调控影响。 “通过 Sei,我们想总结这个庞大目录中的数据,以制作综合分子活动的全球地图,”完成博士学位的周建说。在 Troyanskaya 的实验室工作,现在是德克萨斯大学西南医学中心的生物信息学助理教授,也是 Sei 论文的主要作者之一。
Sei 对基因组调控活动的预测展开成一张地图,可以识别科学家输入的任何 DNA 序列的功能影响。图上的标签代表 Sei 预测将发挥相似调节活性的 DNA 序列组,因此它们聚集在“序列类别”中。重要的是,序列类别是由数据聚类方法确定的,而不是由首先定义它们然后将序列拟合到其中的科学家确定的。 “我们希望数据能够指导我们,而不是反过来,”陈说。 Sei 将特定的 DNA 序列分配给序列类别,从而预测该序列引起的调节活动类型。该图谱显示了调节活动发生的组织,并指出该活动是使基因上调还是下调,从而导致产生更多或更少的蛋白质。 “我们希望提供全球解释和组织特异性调节功能预测,”Zhou 说。有了这张图,科学家们可以看到一个特定的 DNA 序列是否、在哪里以及如何影响一个基因,从而影响它编码的蛋白质,他们可以在整个基因组范围内做到这一点。
预测人类特征和疾病背后的调控活动
有了由序列类别锚定的全球地图,Troyanskaya 和她的团队开始在人类数据集上测试 Sei,从英国生物银行开始,这是一个由 50 万英国参与者收集的遗传和健康信息库。 Sei 检查了 Biobank 的全套全基因组人类 DNA 变异,这些变异与性状和疾病相关。其中一些变异与与疾病风险相关的特征有关,例如胆固醇水平和血压。其他人通常与生活环境有关,例如大学毕业年限,或者某人是否是早起的人。所有的性状都至少有一定程度的遗传性,这意味着它们会受到遗传变异的影响,而不仅仅是外部环境。由于 Sei 的序列类别彼此不重叠,因此在预测中每个变体都被分配了一个序列类别。 “这允许将遗传力 [与多个变体相关的特征] 分解为由不同序列类贡献的组件,以前所未有的方式提供该特征的监管架构的清晰画面,”陈说.
一些特征组点亮了与预期组织相关的序列类别。例如,与血液相关性状相关的变异被分配给这些细胞类型的序列类别。同样,与大学教育年限等特征相关的变异属于与大脑和干细胞中的增强子活动相关的序列类别。
虽然 Sei 的许多预测有力地证实了研究人员已经了解的这些特征,但该模型还预测了特征与监管活动之间的 83 种新关联。其中一些新协会特别有用;例如,甲状腺功能减退症与免疫系统 B 细胞和 T 细胞的增强活性有关。医生将腰臀比用作心血管疾病和 2 型糖尿病的危险因素,它与跨多个组织的增强子活性有关,这表明表观遗传活性不仅仅局限于一个组织。这些预测有助于为后续实验提供信息,以测试这些假定的因果变异-性状关系。
Sei 还被证明在阐明疾病特异性特征方面特别有效。 “在许多情况下,科学家们已经知道疾病突变发生在已知与疾病相关的基因附近,”陈说。 “但是基因的调控是否真的被打乱了,以及是如何打乱的,Sei 可以阐明这一点。”当研究人员将 Sei 用于人类基因突变数据库中的 853 种调节性疾病突变时,他们发现许多细胞特异性疾病突变被预测会影响这些细胞类型中的增强子活性,这表明真正的基因破坏。例如,导致维生素 K 依赖性蛋白 C 缺乏症(一种涉及肝脏的疾病)的突变预计会降低肝脏基因中的增强子活性。 “Sei 为先前研究中已经确定的疾病突变提供了可能的调节机制,”Troyanskaya 说。
Zhou 说,由于许多疾病都归因于蛋白质功能的丧失(这在此处被视为调节活动的减少),令人惊讶的是,Sei 预测整整 20% 的突变会增加调节活动。其中一些预测涉及一类称为 CTCF-cohesins 的蛋白质,它们将 DNA 弯曲成环状,使某些 DNA 片段在短时间内靠近在一起,并产生显着的表观遗传效应。这一结果强调了 CTCF-cohesins 在疾病中可能发挥的重要作用。
这些和其他例子已经表明,Sei 可以对“这种突变是否影响所讨论的蛋白质?”这个问题给出明确的答案。在全基因组规模上,可以为科学家提供进一步探索的途径。 “从这里开始,临床医生可以继续测试个体机制,看看它们是否与他们在患者身上看到的一致,”Troyanskaya 说。
验证人类与黑猩猩分裂的进化机制
2021 年 8 月,旧金山加利福尼亚大学的研究科学家 Sean Whalen 注意到一条链接到 Sei 预印本的推文。阅读这篇论文后,Katie Pollard 实验室的成员 Whalen 想知道 Sei 是否可以应用于他自己的人类进化遗传学研究。 Pollard 是加州大学旧金山分校的流行病学和生物统计学教授、格拉德斯通数据科学与生物技术研究所所长和Flatiron Institute IDEA 学者,她将这篇论文带到了她实验室的期刊俱乐部,讨论了 Whalen 的想法。 Pollard 实验室正在研究显示加速进化迹象的人类基因组区域。众所周知,这些所谓的人类加速区域 (HAR) 的遗传变化在大约 700 万年前将人类推向了自己的进化道路,远离了黑猩猩。有趣的是,最近的研究表明,HAR 也可能在自闭症和精神分裂症等发育和精神疾病中发挥关键作用,呈现出神经学和进化变化的复杂难题。
“在我们的实验中,我们只能测试人类和黑猩猩之间有限数量的差异,”波拉德说。 “Sei 可以查看所有差异。所以我们想,让我们运行它,看看它对监管活动有何看法。”
该小组的实验分析表明一种称为补偿进化的机制在起作用。当某些突变产生的效果与其他突变的效果相反时,就会发生一种“进化回溯”补偿进化。波拉德说:“也许在某一时刻存在太多差异,然后进化又将事物倒转过来。” “为什么?也许环境正在发生变化,或者可能进化出一种新的生物过程,但结果证明是不利的,需要加以纠正。”
从本质上讲,Sei 在更大范围内证实了该团队的实验结果。大多数包含 HAR 的变体增加了增强子活性,而其他变体则降低了该活性。 “Sei 最终让我们相信了实验数据,”Pollard 说。 “结果表明,进化变化可能与人类-黑猩猩祖先相去甚远,需要恢复。”
将最好的 Flatiron 计算能力带给科学界
Zhou 支持早期基于 DNA 序列的机器学习模型的命名,例如 Beluga(Sei 的前身)和 Orca,后者是他在德克萨斯大学的实验室开发的,可以预测 DNA 的 3D 结构。但 Sei 是与它同名的模型最接近的模型,它是速度最快、体型最大的鲸鱼之一,无论是在力量还是规模上。
在 Flatiron Institute,Chen 与 Zhou 密切合作设计了一种计算架构,可以处理这种规模的数据并在合理的时间内处理它。这种精心设计启发了西蒙斯基金会的数据科学家兼信息学临时负责人 Aaron Wong 创建HumanBase Sei 网络服务器,使研究人员能够在他们自己的序列上运行 Sei。 “如果我们没有在 Flatiron,没有它的计算团队和资源,我们的工作就不可能取得如此快的进展,”Chen 说。领导 HumanBase 平台开发的 Wong 说,同样重要的是 Flatiron 计算资源的好处如何辐射到 Sei 的用户。 “Sei 网络应用程序使用户可以免费使用 Flatiron 的巨大计算资源,”他说。 “他们在提交 DNA 序列后很快就会得到结果,并且可以通过交互式可视化探索预测。”
对于 Flatiron Institute 以外的 Sei 用户,体验一直很顺利。 “Sei 非常易于使用,”Whalen 说。 “运行它很简单,解释输出也很直观。” Whalen 确实最终需要对 Sei 进行修改,以允许模型一次考虑多个黑猩猩变种。当 Pollard 向 Sei 团队提到这一点时,他们迅速添加了所需的功能。 “我很欣赏开发人员的响应速度,”Pollard 说。 “他们真正与用户合作。”
虽然大数据方法对于任何类型的机器学习都是必要的,但作为 Sei 基础的计算能力起着同样重要的作用。 “进入 Sei 的海量数据与 Flatiron Institute 强大的计算能力相结合,最大限度地发挥了深度学习的模式发现能力,”Theesfeld 说。
“Sei 帮助我们以前所未有的方式回答有关突变以及 DNA 变异和疾病的性质的问题,”Troyanskaya 补充道。 “而且因为它可以通过 HumanBase 平台获得,它使更大的科学界也能够回答这些问题。”
随着 Sei 的出现,人们对 Sei 可以揭示的人类生物学奥秘充满了兴奋。除了探索已知突变的功能影响外,该模型还可以对模拟突变进行预测,进一步完善我们对生物学因果关系的理解。 Theesfeld 设想 Sei 帮助为我们知之甚少的疾病创建基于遗传学的临床治疗流程图,类似于目前存在的乳腺癌。 “我们可能没有考虑过使用它的所有不同方式,”她说。 “通过持续的合作,我们正在将 Sei 应用于医学基因组,并且才刚刚开始释放它的潜力。”