设计一种蛋白质有点像做一个橱柜。第一步是构建将蛋白质结合在一起的骨架。但接下来是困难的部分:找出在脚手架上安装铰链的位置——即找到最佳“热点”——安装在门、架子和其他附件上,最终使橱柜完全发挥作用。
在某种程度上,蛋白质的结构中也嵌入了热点。正如他们的名字一样,“功能位点”,这些有趣的角落和缝隙形成了复杂的码头,供其他蛋白质或药物抓住。这些站点是执行我们大多数基本生物过程的核心。它们也是设计新疗法和医疗药物的巨大金矿。
问题?功能性站点很难映射。传统上,科学家们必须一个一个地突变蛋白质上的可疑区域——将一种氨基酸转换为另一种氨基酸——以确定精确的结合点。就像一个侦探筛查数百名嫌疑人,其中可能有很多,这是非常乏味的。
一项新的科学研究推翻了整个游戏手册。在华盛顿大学的 David Baker 博士的带领下,一个团队利用 AI 的“想象力”从头开始构想出无数的功能站点。这是机器思维的最佳“创造力”——一种深度学习算法,可以预测蛋白质功能位点的一般区域,然后进一步雕刻结构。
作为一项现实检查,该团队使用新软件来生成对抗癌症的药物,并设计针对常见(有时甚至是致命的)病毒的疫苗。在一个案例中,数字思维提出了一种解决方案,当在分离的细胞中进行测试时,该解决方案与现有的针对常见病毒的抗体完美匹配。换句话说,该算法从病毒蛋白中“想象”出一个热点,使其容易成为设计新疗法的目标。
该算法是深度学习首次尝试围绕其功能构建蛋白质,为以前无法想象的治疗打开了大门。但该软件不仅限于天然蛋白质热点。 “我们在自然界中发现的蛋白质是惊人的分子,但设计的蛋白质可以做得更多,”贝克在新闻稿中说。该算法正在“做我们没有人认为它能够做到的事情”。
蛋白质热点
Baker 的团队对用人工思维预测蛋白质并不陌生。几年前,他们通过发布 Rosetta 震撼了结构生物学领域,该软件可以仅根据氨基酸序列预测蛋白质的 3D 结构。他们进一步绘制了蛋白质复合物的图谱,并从头开始设计蛋白质“螺丝刀”,以撬开不需要的蛋白质相互作用。去年年底,他们发布了一个名为 trRosetta 的深度学习网络,这是一个人工智能“架构师”,它概括了氨基酸串如何排列成纳米级的复杂结构。
让我们备份。
当我输入这句话时,很容易将蛋白质想象成我正在咬的多肉、强韧的鸡翅。但在分子水平上,它们要优雅得多。想象一下多个乐高积木——氨基酸——由一根绳子连接在一起。现在旋转它,扭转链条,直到一些块相互咬合。这形成了一种精致的结构,通常类似于螺旋或皱巴巴的床单。在一些蛋白质中,这些构建块进一步组装成复合物——例如,制作一个通道,该通道像巡逻的州际公路一样穿过细胞的保护膜。
蛋白质为每一个生物过程提供动力,通常通过与其他蛋白质或药物的级联相互作用,这取决于合作伙伴 – 可以引发完全不同的后果:细胞应该生存还是死亡?攻击潜在的入侵者还是退缩?换句话说,蛋白质是生命的基石,解析它们的结构是我们可以侵入生命的方式。
事情是这样的:并非蛋白质的所有部分都是平等的。如果蛋白质是人体,功能位点就是它的“手”——它抓住另一种蛋白质或药物,激发酶促反应,或抵抗入侵的病原体。这些位点直接嵌入蛋白质的结构中,很难确定,甚至更难重建。
这项新研究用一个版本的 Rosetta 解决了这个问题:根据一些先前的知识,计算机是否有可能构想出一条自然折叠成功能位点的氨基酸链?
梦想家和现实主义者
这个问题可能看起来很奇怪,但之前有一个例子——在不同的领域。使用神经网络,OpenAI 仅从文本标题中创建了广泛的图像。作为 Rockstar AI 文本生成器GPT-3的衍生产品,DALL·E 算法通过检测训练中的模式,根据简单的文本提示生成梦幻但逼真的图像。加州大学伯克利分校的 Hany Farid 博士在该工具首次发布后说: “它需要你想象中最深、最黑暗的地方,并把它变成一种非常相关的东西。”
构建蛋白质功能位点是类似的。在这里,氨基酸是字母,蛋白质功能位点是图像。 “想法是一样的:可以训练神经网络来查看数据中的模式。一旦经过培训,你可以给它一个提示,看看它是否能产生一个优雅的解决方案,“新工作的主要作者约瑟夫沃森博士说。除了写小说之外,该算法还可以帮助改写生活。
该团队从以前的作品 trRosetta 开始。它是一个神经网络,最初旨在根据氨基酸序列构想出新的蛋白质,同时能够预测它们的结构——其中一些与天然蛋白质如此不同,以至于该团队将深度学习的内部工作称为“幻觉”。该算法看起来很完美:它既可以预测蛋白质的氨基酸序列,也可以预测其结构。
打嗝?它并没有真正起作用。相比之下,蛋白质结构预测的 OG RoseTTAFold表现得像个冠军。该算法的强大之处在于其设计:在纳米尺度上对每个氨基酸进行建模,为每个原子提供坐标。就像使用谷歌地图固定一个地理位置一样,这为人工智能可以进一步复制的结构提供了一定程度的基本事实——一种“受约束的幻觉”。
翻译? RoseTTAFold 可以预测特定于手头问题的功能结构,并提出一个粗略的草图作为最终设计。
然后是另一个聪明的技巧,被称为“修复”。在这里,研究小组隐藏了部分蛋白质序列或结构。该软件必须学习如何从本质上是嘈杂的无线电拦截中破译信息,在这种情况下,您只能听到前几个词,但通过填空来尝试理解其含义。 RoseTTAFold 满怀热情地解决了“丢失信息恢复问题”,自动完成氨基酸序列和结构以构建具有高保真度的给定功能区域。
RoseTTAFold 可以同时解决构建氨基酸序列和生成该位点骨架的问题。这就像把文字写在纸上:作者确保每个字母都在正确的位置,同时检查语法和含义是否有意义。
质疑现实的本质
对他们的新发明进行测试后,该团队产生了几种可能对抗病毒和癌症或帮助解决低铁健康问题的药物和疫苗设计。
对于主要作者王珏博士来说,该算法出人意料地变得相关。在进行该项目时,他两岁的儿子因肺部感染 RSV(呼吸道合胞病毒)而住进了急诊室,这种病毒通常表现出类似感冒的症状,但对年轻人和青少年来说可能是致命的。老年。
当时,Wang 正在使用该算法设计新的治疗方法,其中包括 RSV 上的潜在位点,以进一步测试疫苗和药物。这是一个相对完善的结构。该软件产生了幻觉,该设计概括了疫苗可能结合的两个位点。使用在细菌中重建的幻觉蛋白质进行的测试迅速抓住了现有的抗体——这表明它们是有功能的,并且深度学习方法有效。
这一事件“让我意识到,即使是我们正在研究的‘测试’问题实际上也很有意义,”王说。
在另外几项测试中,该团队为酶、蛋白质结合蛋白和吸附金属离子的蛋白质设计了功能位点——基本上,就是你如何吸收铁和其他重要金属。
虽然功能强大,但仍有增长空间。该方法为揭开天然蛋白质的神秘面纱打开了大门,同时也有可能为合成生物学设计新的蛋白质。 “这些都是非常强大的新方法,但仍有很大的改进空间,”贝克说。
总而言之,这是深度学习的又一次胜利,也是人工智能和生物学如何协同作用的引人入胜的展示。 “深度学习在过去两年改变了蛋白质结构预测,我们现在正处于蛋白质设计的类似转变之中,”贝克说。
图片来源:Ian C. Haydon/威斯康星大学蛋白质设计研究所。受过蛋白质结构训练的新人工智能软件可以在几秒钟内生成功能性蛋白质,包括这些呼吸道病毒 RSV 的候选疫苗。