地球上的所有生命都是由四个 DNA“字母”书写的。人工智能只是使用这些字母从头开始想象出一个全新的基因组。
这种名为 Evo的 AI 受到大型语言模型 (LLM) 的启发,该模型是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等流行聊天机器人的基础。这些模型因其在产生类人反应方面的能力而风靡全球。从简单的任务,例如定义一个迟钝的单词,到总结科学论文或吐出适合说唱的诗句,法学硕士已经进入我们的日常生活。
如果法学硕士能够掌握书面语言——他们能否掌握生活语言呢?
本月,斯坦福大学和 Arc 研究所的一个团队对该理论进行了测试。他们没有使用从互联网上抓取的内容来训练 Evo,而是使用来自各种微生物和细菌感染病毒的近 300 万个基因组(相当于数十亿行遗传密码)来训练人工智能。
Evo 比之前的人工智能模型更擅长预测遗传物质(DNA 和 RNA)的突变如何改变功能。人工智能也发挥了创造力,为基因编辑工具 CRISPR 设计了几个新组件。更令人印象深刻的是,人工智能生成的基因组长度超过一兆碱基,大约相当于某些细菌基因组的大小。
“总的来说,Evo 代表了一个基因组基础模型,”旧金山格拉德斯通研究所的克里斯蒂娜·西奥多里斯 (Christina Theodoris)写道,她没有参与这项工作。
学习了基因组词汇后,Evo 等算法可以帮助科学家探索进化、破译细胞的内部运作、解决生物奥秘,并通过设计复杂的新生物分子来快速推进合成生物学。
DNA多元宇宙
与英文字母的 26 个字母相比,DNA 只有 A、T、C 和 G。这些“字母”是四种分子的简写:腺嘌呤 (A)、胸腺嘧啶 (T)、胞嘧啶 (C) 和鸟嘌呤 (G) )——结合起来,拼出了我们的基因。如果法学硕士能够征服语言并创造新的散文,那么仅用四个字母重写基因手册应该是小菜一碟。
不完全是。人类语言被组织成单词、短语和句子来传达信息。相比之下,DNA 更加连续,遗传成分也更加复杂。西奥多里斯写道,相同的 DNA 字母携带着“平行的信息线索”。
最熟悉的是DNA作为遗传载体的作用。三个 DNA 字母的特定组合(称为密码子)编码蛋白质构件。它们串在一起形成蛋白质,构成我们的组织、器官,并指导细胞的内部运作。
但相同的基因序列,根据其结构,也可以招募将密码子转化为蛋白质所需的分子。有时,相同的 DNA 字母可以根据细胞的健康和环境将一个基因转变为不同的蛋白质,甚至关闭该基因。
换句话说,DNA 字母包含有关基因组复杂性的大量信息。任何变化都可能危及蛋白质的功能,导致遗传病和其他健康问题。这使得人工智能解析单个 DNA 字母变得至关重要。
但人工智能很难仅通过分析遗传字母来大规模捕获多线程信息,部分原因是计算成本很高。与古罗马文字一样,DNA 是没有明确标点符号的字母连续体。因此,可能有必要“阅读”整个链,以全面了解其结构和功能,即破译含义。
之前的尝试是将DNA 字母“捆绑”成块——有点像制造人造单词。 Theodoris 写道,虽然更容易处理,但这些方法破坏了 DNA 的连续性,导致“某些信息线索的保留而牺牲了其他信息线索”。
打好基础
Evo 正面解决了这些问题。其设计者的目标是保留所有信息线索,同时以单 DNA 字母分辨率运行,并降低计算成本。
诀窍是通过利用名为 StripedHyena 的算法系列中使用的特定类型的人工智能设置,为 Evo 提供任何给定基因组块的更广泛背景。与 GPT-4 和其他 AI 模型相比,StripedHyena 的设计速度更快,处理大型输入的能力更强,例如长 DNA。这扩大了 Evo 所谓的“搜索窗口”,使其能够更好地在更大的遗传景观中寻找模式。
然后,研究人员在一个包含近 300 万个细菌和感染细菌的病毒(称为噬菌体)基因组的数据库上训练人工智能。它还从质粒中学习,质粒是细菌中常见的环状DNA片段,可以在微生物之间传递遗传信息,促进进化并永久保持抗生素耐药性。
经过训练后,团队将 Evo 与其他人工智能模型进行比较,以预测给定基因序列中的突变可能如何影响该序列的功能,例如蛋白质编码。尽管从未被告知哪些遗传字母构成密码子,但 Evo 在这项任务中的表现优于经过专门训练来识别蛋白质编码 DNA 字母的人工智能模型。
值得注意的是,Evo 还预测了突变对多种 RNA 分子的影响,例如调节基因表达、将蛋白质构建模块运送到细胞蛋白质制造工厂以及充当酶来微调蛋白质功能的分子。
Theodoris 写道,Evo 似乎已经获得了“对 DNA 语法的基本理解”,使其成为创建“有意义的”新遗传密码的完美工具。
为了测试这一点,该团队使用人工智能设计了新版本的基因编辑工具 CRISPR。这项任务尤其困难,因为该系统包含两个协同工作的元件——一个引导 RNA 分子和一对名为 Cas 的蛋白质“剪刀”。 Evo 产生了数百万个潜在的 Cas 蛋白及其伴随的向导 RNA。该团队挑选了 11 种最有希望的组合,在实验室中合成它们,并在试管中测试它们的活性。
其中一个脱颖而出。作为 Cas9 的变体,人工智能设计的蛋白质在与指导 RNA 伴侣配对时会切割其 DNA 靶标。研究小组写道,这些设计生物分子代表了蛋白质与 DNA 或 RNA 之间通过语言模型进行协同设计的“第一个例子”。
研究小组还要求 Evo 生成长度与某些细菌基因组相似的 DNA 序列,并将结果与自然基因组进行比较。设计者的基因组包含一些细胞生存所必需的基因,但有无数的非自然特征阻止其发挥功能。研究小组写道,这表明人工智能只能制作基因组的“模糊图像”,其中包含关键元素,但缺乏更精细的细节。
与其他法学硕士一样,Evo 有时会“产生幻觉”,喷出 CRISPR 系统,但没有任何机会发挥作用。尽管存在这些问题,人工智能表明未来的法学硕士可以在更广泛的范围内预测和生成基因组。该工具还可以帮助科学家检查微生物和噬菌体的长程遗传相互作用,从而可能激发我们对如何重新连接它们的基因组以生产生物燃料、 吃塑料的细菌或药物的见解。
目前尚不清楚 Evo 是否能够破译或产生更长的基因组,就像植物、动物或人类的基因组一样。然而,如果该模型可以扩展,它“将对疾病产生巨大的诊断和治疗意义”,西奥多里斯写道。
图片来源: Unsplash上的Warren Umoh