OpenAI 开发了一种专为工程蛋白质而设计的语言模型,能够将常规细胞转化为干细胞。它标志着该公司首次涉足生物数据,并展示了人工智能带来意想不到的科学发现的潜力。一位匿名读者引用了《麻省理工科技评论》的一篇报道:上周,OpenAI 首席执行官 Sam Altman 表示,他“相信”他的公司知道如何构建 AGI,并补充说“超级智能工具可以大大加速科学发现和创新,远远超出我们的能力”。我们自己有能力做。”该蛋白质工程项目始于一年前,当时位于旧金山的长寿研究公司 Retro Biosciences 与 OpenAI 接洽合作。这种联系并非偶然发生。据《麻省理工科技评论》2023 年首次报道,OpenAI 首席执行官 Sam Altman 个人向 Retro 投资了 1.8 亿美元。Retro 的目标是将人类正常寿命延长 10 年。为此,它研究了所谓的山中因素。这些是一组蛋白质,当添加到人类皮肤细胞中时,会导致其转变为看起来年轻的干细胞,这种干细胞可以产生体内任何其他组织。 […] OpenAI 的新模型称为 GPT-4b micro,经过训练后可提出重新设计蛋白质因子以增强其功能的方法。据 OpenAI 称,研究人员利用该模型的建议将其中两个山中因子的效果提高了 50 倍以上——至少根据一些初步措施来看是这样。 […]该模型的工作方式与谷歌的 AlphaFold 不同,后者预测蛋白质的形状。 OpenAI 表示,由于山中因子是异常松软和非结构化的蛋白质,因此他们需要一种不同的方法,而其大型语言模型适合这种方法。该模型接受了来自许多物种的蛋白质序列示例以及哪些蛋白质倾向于彼此相互作用的信息的训练。虽然数据量很大,但这只是 OpenAI 旗舰聊天机器人训练数据的一小部分,这使得 GPT-4b 成为使用重点数据集的“小语言模型”的一个例子。当Retro科学家获得这个模型后,他们试图引导它提出对山中蛋白质的可能的重新设计。使用的提示策略类似于“few-shot”方法,其中用户通过提供一系列带有答案的示例来查询聊天机器人,然后提供一个示例供机器人响应。尽管基因工程师有办法在实验室中指导分子的进化,但他们通常只能测试这么多的可能性。即使是典型长度的蛋白质也可以以近乎无限的方式改变(因为它们是由数百种氨基酸组成,每种酸有 20 种可能的变体)。然而,OpenAI 的模型经常给出蛋白质中三分之一氨基酸发生变化的建议。 “我们立即将该模型投入实验室,并得到了真实的结果,”Retro 的首席执行官 Joe Betts-Lacroix 说道。他说,该模型的想法非常好,在很大一部分情况下比原始山中因子有所改进。
在 Slashdot 上阅读这个故事的更多内容。