想要以1932 年的“摩天大楼上的午餐”的风格创建一个在摩天大楼上工作的迅猛龙的图像吗?使用 DALL-E。想制作一个由彼得·泰尔、埃隆·马斯克和拉里·佩奇创作的虚构单口喜剧节目吗?使用 GPT-3。想深入了解 COVID-19 研究并根据证据回答您的问题吗?学习如何进行布尔搜索、阅读科学论文,甚至可能获得博士学位,因为没有针对大量科学研究出版物进行训练的生成 AI 模型。如果有的话,获得有证据支持的、通俗易懂的科学问题答案将是最简单的好处之一。用于科学的生成式人工智能可以帮助扭转科学创新的减速,让寻找新想法变得更容易、 更便宜。这样的模型还可以为肯定会失败的治疗假设提供数据支持的警告,抵消人类偏见并避免数十亿美元、 长达数十年的死胡同。最后,此类模型可以通过映射、权衡和情境化研究结果来应对可重复性危机,从而提供可信度分数。
那么为什么我们没有用于科学的 DALL-E 或 GPT-3 呢?原因在于,虽然科学研究是世界上最有价值的内容,但它也是世界上最难获得和理解的内容。我将解释如何大规模解锁科学数据以使生成人工智能成为可能,以及它将如何改变我们参与研究的方式。
是什么让科学研究数据具有挑战性
研究出版物是世界上最重要的内容和信息库之一。它们将跨时间和跨学科的想法和发现联系在一起,并由图书馆网络永久保存。它们得到证据、分析、专家洞察力和统计关系的支持。它们非常有价值,但它们在很大程度上隐藏在网络之外并且使用效率非常低。网络上充斥着可爱的猫咪视频,但基本上没有前沿的癌症研究。例如, Web of Science是最全面的科学知识索引之一。它已经存在了几十年,但它可能是大多数读者甚至从未听说过的东西,更不用说与之互动了。我们中的大多数人都无法访问研究论文,即使我们这样做了,它们也很密集,难以理解,并且被打包为 PDF——一种专为打印而非网络设计的格式。
因为科学论文不容易获得,我们不能轻易地使用这些数据来训练像 GPT-3 或 DALL-E 这样的生成模型。你能想象如果研究人员可以提出一个实验,并且人工智能模型可以立即告诉他们之前是否已经做过(更好的是,给他们结果)?然后,一旦他们从一个新颖的实验中获得数据,人工智能就可以根据结果提出后续实验。最后,想象一下如果研究人员可以上传他们的结果并且人工智能模型可以为他们编写结果手稿,可以节省多少时间。我们最接近 DALL-E 科学的是 Google Scholar,但它不是一个可持续或可扩展的解决方案。 IBM Watson 还着手实现我在这里描述的大部分工作,但大部分工作都领先于大型语言模型的最新进展,并且没有利用适当或足够的数据来匹配营销炒作。
对于我所描述的那种价值解锁,我们需要长期投资、承诺和愿景。正如最近在Future中提出的那样,我们需要将科学出版物视为要进行大规模组合和分析的基质。一旦我们消除了障碍,我们将能够利用科学来为需要大量数据的生成 AI 模型提供数据。这些模型具有加速科学和提高科学素养的巨大潜力,例如通过培训他们产生新的科学思想,帮助科学家管理和浏览大量科学文献,帮助识别有缺陷甚至是伪造的研究,以及综合复杂的研究结果并将其转化为普通的人类语言。
我们如何获得用于科学的 DALL-E 或 GPT-3?
如果您从事科技行业,向朋友展示DALL-E或GPT-3等生成 AI 模型的输出就像向他们展示魔法一样。这些工具代表了下一代网络。它们源自海量信息的综合,超越了简单的联系,以创建具有生成能力的工具。那么,我们如何才能在科学中创造一种类似的神奇体验,让任何人都可以用通俗易懂的语言向科学文献提出问题,并得到有证据支持的可理解答案呢?我们如何帮助研究人员创建、发展、完善和检验他们的假设?我们如何才能避免在阿尔茨海默病研究中的失败假设以及遗传与抑郁症之间的错误联系上浪费数十亿美元?
这些问题的解决方案可能听起来像科幻小说,但有证据表明,当科学工作不仅仅用于其部分的总和时,我们可以做出惊人而不可思议的事情。事实上,利用蛋白质数据库中的近 200,000 种蛋白质结构, AlphaFold能够准确预测蛋白质结构,这对于记录在案的每种蛋白质(超过 2 亿个!)来说都是如此。以类似于蛋白质结构的方式利用研究论文将是自然的下一步。
将论文分解成最小的组件
研究论文充满了有价值的信息,包括数字、图表、统计关系以及对其他论文的引用。将它们分解成各种组件并大规模使用它们可以帮助我们训练机器处理不同类型的科学相关工作、提示或查询。简单的问题可以通过对一种组件类型的培训来回答,但更复杂的问题或提示需要结合多种组件类型,并了解它们之间的关系。
一些复杂的潜在提示示例如下:
“告诉我为什么这个假设是错误的”
“告诉我为什么我的治疗想法行不通”
“产生新的治疗理念”
“有什么证据支持社会政策 X?”
“谁发表了该领域最可靠的研究?”
“根据我的数据给我写一篇科学论文”
一些团体正在朝着这一愿景迈进。例如, Elicit将 GPT-3 应用于数百万篇论文标题和摘要,以帮助回答研究人员的问题——有点像 Alexa,但用于科学。系统提取实体之间的统计关系,显示不同的概念和实体是如何链接的。 Primer本身并不专注于研究论文,但它确实与 arXiv 合作,并提供了一个信息仪表板,供企业和政府用来综合和理解来自多个来源的大量数据。
访问所有组件
不幸的是,这些团体主要只依赖标题和摘要,而不是全文,因为大约六分之五的文章不是免费或容易获得的。对于像 Web of Science 和 Google 这样拥有数据或论文的团体,他们的许可和使用范围是有限的或未定义的。就 Google 而言,目前尚不清楚为什么没有公开宣布在 Google Scholar 的全文科学研究中训练 AI 模型的努力。令人惊讶的是,在导致世界陷入停顿的 COVID-19 大流行期间,这种情况甚至没有改变。谷歌 AI 团队挺身而出,为公众提供了一种询问COVID-19的方式的原型。但是——这是踢球者——他们这样做只使用来自 PubMed 的开放获取论文,而不是 Google Scholar。
几十年来,团体一直在倡导获取论文并使用它们不仅仅是一次阅读一篇的问题。我本人亲自从事这方面工作近十年,在我攻读博士学位的最后一年推出了一个名为The Winnower的开放获取出版平台,然后在另一家名为Authorea的初创公司努力构建未来的文章。虽然这些举措都没有完全按照我想要的方式进行,但它们引导我进入了我目前在scite的工作,该工作至少部分地通过直接与出版商合作解决了访问问题。
连接组件并定义关系
我们在scite的目标是引入下一代引文——称为智能引文——它显示了任何文章、研究人员、期刊或主题是如何以及为什么在文献中被引用和更广泛地讨论的。通过与出版商合作,我们直接从全文文章中提取句子,他们在文本中使用参考文献。这些句子提供了关于论文如何被新作品引用的定性见解。这有点像用于研究的烂番茄。
这需要访问全文文章,并与出版商合作,以便我们可以使用机器学习来大规模提取和分析引文陈述。因为有足够多的开放获取文章可供开始,我们能够构建概念验证,并一一向出版商展示在我们的系统中索引的文章增加了可发现性,并为他们提供了一个系统来显示更好的指标更负责任的研究评估。我们看到的专家陈述,他们看到的是他们文章的预览。出版商现在已经集体签约,我们已经从超过一半的已发表文章中索引了超过 11 亿条智能引用。
使用关系数据训练 AI 模型
从论文中提取的组件和关系可用于训练新的大型语言模型进行研究。 GPT-3 虽然非常强大,但并不是为科学工作而构建的,并且在回答您可能在 SAT 上看到的问题方面表现不佳。当 GPT-2(GPT-3 的早期版本)通过对数百万篇研究论文进行训练来适应它时,它在特定知识任务上的效果比单独使用 GPT-2 更好。这凸显了用于训练模型的数据非常重要。
一些团体最近使用 GPT-3 撰写学术论文,虽然这令人印象深刻,但他们可能声称要展示的事实或论点可能是非常错误的。如果模型不能正确回答简单的 SAT 式问题,我们可以相信它可以写出一篇完整的论文吗?早于 GPT-3 近 20 年的SCIgen表明,生成看起来真实的论文相对容易。他们的系统虽然简单得多,但生成的论文被各种会议接受。我们需要一个不仅看起来科学而且科学的模型,并且需要一个系统来验证机器和人类的声明。 Meta 最近引入了一个用于验证 Wikipedia 引文的系统,一些出版商曾直言希望他们在学术出版物中拥有该系统。
现在的进展
同样,使该系统取得成果的一个关键障碍是无法获得创建它的文件和资源。在论文或信息可以大规模使用的地方,我们确实看到了工具和新模型的蓬勃发展。谷歌专利团队使用1 亿项专利来训练一个帮助专利分析的系统,实际上是一个 GooglePatentBERT。其他人已经引入了BioBERT和SciBERT等模型,尽管事实上他们只接受了特定学科领域约 1% 的科学文本的训练,但它们在学术任务中令人印象深刻,包括我们在 scite 的引文分类系统。
最近,一个ScholarBERT模型已经发布,它有效地使用了所有的科学文献来训练 BERT。他们克服了访问问题,但特别是对如何解决问题保持沉默,只是强调它们的使用是“非消费性的”。这个用例可能会为其他人在未经出版商明确许可的情况下使用文章打开大门,并且可能是创建 DALL-E 科学的重要一步。然而,令人惊讶的是,ScholarBERT 在各种专业知识任务上的表现不如 SciBERT 等较小的科学语言模型。
重要的是,BERT 风格的模型比 GPT-3 等大型语言模型的规模要小得多,而且它们不允许与 GPT-3 大肆宣传的相同类型的通用提示和上下文学习。问题仍然存在:如果我们应用来自 ScholarBERT 的相同数据来训练像 GPT-3 这样的放大生成模型会怎样?如果我们能以某种方式显示来自机器的答案的来源,或者将它们直接与文献(如智能引用)联系起来,那会怎样?
为什么现在?
幸运的是,论文变得越来越开放,机器变得越来越强大。我们现在可以开始使用论文和连接存储库中包含的数据来训练机器回答问题并根据研究综合新想法。这可能对医疗保健、政策、技术和我们周围的一切产生变革性影响。想象一下,如果我们不仅搜索文档标题,还专门搜索答案,这将如何影响所有学科的研究和工作流程。
将世界的科学知识从可访问性和可理解性的双重障碍中解放出来,将有助于推动从专注于点击、视图、喜欢和关注的网络向专注于证据、数据和真实性的网络转变。制药公司显然有动力实现这一目标,因此越来越多的初创公司使用人工智能识别潜在的药物目标——但我相信公众、政府和任何使用谷歌的人都可能愿意放弃免费搜索,以争取信任和时间——保存。世界迫切需要这样一个系统,而且需要很快。
如何为科学构建 GPT-3的帖子首先出现在Future上。