还记得使用 AI 预测蛋白质形状是当年的突破吗?
那是旧闻了在解决了生物学已知的几乎所有蛋白质结构之后,人工智能现在正转向一个新的挑战:从头开始设计蛋白质。
远非学术追求,这项努力是药物发现的潜在游戏规则改变者。能够针对体内任何给定目标(例如那些引发癌症生长和扩散的目标)制定蛋白质药物,可以启动一个新的药物世界来对付我们最糟糕的医疗敌人。
难怪多个 AI 巨头正在应对这一挑战。令人惊讶的是,他们采用了相似的方法。今年,华盛顿大学的 DeepMind、Meta 和 David Baker 博士的团队都从一个不太可能的来源获得灵感:DALL-E 和 GPT-3。
这些生成算法风靡全球。只要用日常英语给出一些简单的提示,这些程序就可以制作出令人费解的图像、创意写作的段落或电影场景,甚至可以重新混合最新的时装设计。同样的基础技术最近开始尝试编写计算机代码,在一项极具挑战性的编程任务中击败了近一半的人类竞争对手。
这些与蛋白质有什么关系?
事情是这样的:蛋白质本质上是一串“字母”,被塑造成二级结构——想想句子——然后是 3D“段落”。如果人工智能可以生成华丽的图像和干净的文字,为什么不利用这项技术来改写生活的密码呢?
冠军来了
蛋白质是生命的关键。它塑造了我们的身体。它运行我们的新陈代谢。它是复杂大脑功能的基础。它也是大量新药的基础,这些新药可以治疗我们迄今为止最难以克服的一些健康问题,并通过合成生物学创造新的生物燃料来源、 实验室培育的肉类,甚至是全新的生命形式。
虽然“蛋白质”常常让人联想到鸡胸肉,但这些分子更像是复杂的乐高拼图。构建蛋白质从一串氨基酸开始——想想一串串上的无数圣诞灯——然后折叠成 3D 结构(就像把它们揉成一团以便储存)。
当 DeepMind 和 Baker 各自开发出基于氨基酸序列预测任何蛋白质结构的算法时,他们都引起了轰动。这不是简单的努力;预测被映射到原子级别。
设计新的蛋白质将复杂性提高到另一个层次。今年 Baker 的实验室对此进行了尝试,一项是使用良好的旧筛选技术,另一项是依赖深度学习幻觉。这两种算法在揭开天然蛋白质的神秘面纱和生成新蛋白质方面都非常强大,但它们很难扩大规模。
可是等等。设计蛋白质有点像写论文。如果 GPT-3 和 ChatGPT 可以使用自然语言编写复杂的对话,那么同样的技术在理论上也可以重新调整蛋白质的语言——氨基酸——以形成自然界完全未知的功能性蛋白质。
AI 创造力遇上生物学
这个技巧可能奏效的第一个迹象来自 Meta。
在最近的一篇预印本论文中,他们利用 DALL-E 和 ChatGPT 的 AI 架构(一种称为大型语言模型 (LLM) 的机器学习)来预测蛋白质结构。该团队没有向模型提供大量的文本或图像,而是用已知蛋白质的氨基酸序列对它们进行训练。使用该模型,Meta 的 AI 仅通过阅读蛋白质的氨基酸“字母”就预测了超过 6 亿种蛋白质结构——包括来自土壤、海水和我们身体中我们知之甚少的微生物的深奥结构。
更令人印象深刻的是,这个名为 ESMFold 的人工智能最终学会了“自动完成”蛋白质序列,即使某些氨基酸字母被遮盖了。虽然不如 DeepMind 的 AlphaFold 准确,但它的运行速度大约快 60 倍,从而更容易扩展到更大的数据库。
Baker 的实验室在本月早些时候发布的预印本中将蛋白质“自动完成”功能提升到了一个新的水平。如果人工智能在预测蛋白质结构方面已经可以填补空白,那么类似的原理也可能会根据提示生成蛋白质——在这种情况下,它的潜在生物学功能。
关键在于 扩散模型,这是一种支持 DALL-E 的机器学习算法。简而言之,这些神经网络特别擅长从任何给定数据(无论是图像、文本还是蛋白质序列)中添加和去除噪声。在训练过程中,他们首先通过添加噪声来破坏训练数据。然后,该模型通过称为去噪的步骤逆向过程来学习恢复原始数据。这有点像拆解笔记本电脑或其他电子产品,然后将其重新组装起来,看看不同组件的工作原理。
因为扩散模型通常从混乱的数据开始(比如,图像的所有像素都被重新排列成噪声)并最终学会重建原始图像,所以它在从看似随机的样本中生成新图像或蛋白质方面特别有效。
Baker 的实验室通过对他们标志性的RoseTTAFold结构预测网络进行一些微调来利用这种方法。以前,该软件的一个版本只需一步即可生成蛋白质支架——蛋白质的骨架。但蛋白质并不是统一的团块:每个蛋白质都有多个热点,使它们能够在物理上相互标记,从而触发各种生物过程。当 RoseTTAFold 面临棘手的问题时——比如用最少的知识设计蛋白质热点——它举步维艰。
该团队的解决方案是将 RoseTTAFold 与扩散模型集成,前者帮助进行去噪步骤。由此产生的算法 RoseTTAFold Diffusion (RF Diffusion) 是蛋白质结构预测和创造性生成之间的私生子。人工智能设计了范围广泛的精心设计的蛋白质,与任何已知的蛋白质结构几乎没有相似之处,并受到预先定义但与生物学相关的限制。
设计蛋白质只是第一步。接下来是将这些数字设计转化为实际的蛋白质,并了解它们在细胞中的工作原理。在一项测试中,该团队选取了 44 名具有抗菌和抗病毒潜力的候选药物,并在可靠的大肠杆菌中制造了蛋白质。超过 80% 的 AI 设计者蛋白质折叠成它们预测的最终形式。这是一个了不起的壮举,因为几个子单元必须以特定的数量和方向聚集在一起。
这些蛋白质也抓住了它们的预定目标。一个例子的蛋白质结构与 SARS-CoV-2 结合,SARS-CoV-2 是导致 Covid-19 的病毒。人工智能设计专门针对病毒的刺突蛋白进行设计,这是 Covid-19 疫苗的目标。
在另一个例子中,人工智能设计了一种与激素结合的蛋白质,以调节血液中的钙水平。由此产生的候选人很容易抓住目标——如此之多以至于它只需要一点点。贝克在接受《麻省理工科技评论》采访时表示,人工智能似乎“ 凭空”提取了蛋白质药物解决方案。 ”
“这些作品揭示了扩散模型对蛋白质设计的强大作用,”研究作者 Joseph Watson 博士说。
人工智能会梦见分子羊吗?
Baker 的实验室并不是唯一一个研究基于 AI 的蛋白质药物的实验室。
位于马萨诸塞州的初创公司Generate Biomedicines也着眼于生成蛋白质的扩散模型。他们的软件被称为Chroma,其工作原理与 RF Diffusion 类似,包括生成的遵循生物物理约束的蛋白质。据该公司称,Chroma 可以在 GPU(图形处理单元)上短短几分钟内生成大型蛋白质——超过 4,000 个氨基酸残基。
虽然刚刚开始,但很明显,按需蛋白质药物设计的竞赛已经开始。 “这非常令人兴奋,”RF 扩散研究的作者 David Juergens 说,“这真的只是一个开始。”