Daphne Koller 是创始人兼 CEO 或insitro 。在加入 instro 之前,她曾担任Calico的首席计算官。在职业生涯中期过渡到共同创立的Coursera之前,她还是斯坦福大学计算机科学系的教授。
在这次采访中,她分享了从生物医学数据创建准确机器学习模型的一些挑战以及她如何应对这些挑战。我们还研究了 AlphaFold 的成功,为什么它现在发生了,以及我们是否可以期待在生物医学 ML 的其他领域看到类似的跨越式发展。但首先,我们首先要了解是什么让她脱离了成功的学术界职业生涯,并了解她对如何在 PI 到行业转型后茁壮成长的见解。
未来:你是斯坦福大学的教授,专注于人工智能研究,然后在 2012 年创立Coursera时转行进入工业界。是什么促使你做出这一举动?
DAPHNE KOLLER:我一直在体验一种更直接地改变世界的紧迫感,而不是通过学生或写论文的代理。我试图通过我的一些工作来做到这一点,例如癌症组织病理学,但并没有真正将其转化为学术环境中的影响。
然后,我在斯坦福大学发起的关于技术辅助教育的工作逐渐发展成为第一批大规模开放在线课程的推出。我们看到了这些所产生的影响,不仅在参与人数(每门课程超过 100,000 人)上,而且还看到了来自每个国家、每个年龄组和各行各业的参与者。我觉得我需要看透它,而不仅仅是假设其他人会接力棒。
我见过的从学术界到工业界的一些最不成功的转变是那些保持 PI 思维方式的人。
所以我休了两年假。但是后来,我真的很喜欢它,并且不觉得公司处于我可以将其留在那种状态的位置。所以斯坦福强迫我做出选择,我做到了,而且还没有真正回头。
对于现在可能正在经历这种转变的人,有什么你希望你当时知道的吗?
我认为让人们了解与学术界相比,工业界的生活有多么不同是很重要的。一个区别在于它的结构。在公司做的某些事情比在学术界做的自由形式要少得多。但也许比这更根本的是另外两件事。
一是在公司工作真的是一项团队运动。这与你做了什么和你的成就无关。这是关于整个公司,尤其是在初创企业中,通过团队合作能够完成的事情。一个人需要愿意把自己的自我放在一边。我见过的从学术界到工业界的一些最不成功的转变是那些保持首席研究员 (PI) 心态的人。
在 instro,我们有一个基本的核心价值观,那就是我们以公开、建设性和尊重的方式相互交往。所有这些话都很重要。
另一个很大的区别是建筑的耐用性而不是快速获胜。在学术界,你做了工作,然后它作为论文发表。你会因为这项工作获得很多知名度。然后,除了手稿之外,通常不会有持久的文物。你编写的代码,如果幸运的话,会被存放在 GitHub 上,但它很少打算被其他任何人重用,甚至包括编写它的人。数据集可能存储在某个存储库中,但您并没有真正将其视为您希望其他人在其上构建的持久工件。
在工业界,这没有任何意义。没有快速获胜这样的事情。当然,你可以做概念证明和东西。但最终,你正在构建的东西必须让其他人能够在此基础上做出贡献。因此,您需要考虑如何构建足够强大的东西以经受时间的考验,以允许其他人使用它。
你在建立一种促进跨职能协作、连接技术和生物学的文化方面非常成功。您对如何构建它的理念是什么?
无论如何,你必须对文化非常慎重。文化是其中之一,如果你让它有机地发展,它往往会退化为最坏的情况。特别是随着你的成长,你带来了新的人,他们不一定完全理解你在做什么,并且会在上面介绍他们自己的颜色。这通常会导致文化的扩散,甚至将其拖向错误的方向。
所以,你必须认真地灌输文化、招聘文化、奖励文化、绩效评估和其他方式、突出例子以及灌输组织结构,使做正确的事情比做正确的事情更容易。错误的事情。
在其他领域实现类似的跨越需要什么?我想说两件事。一是大量的高质量数据。 . .另一个是有一个非常明确的问题和一种评估你是否正在解决问题的方法。
在 instro,我们有一个基本的核心价值观,那就是我们以公开、建设性和尊重的方式相互交往。所有这些话都很重要。
“参与”意味着我们实际上彼此交谈,而不是孤立在我们的小团队中。 “公开”意味着我们必须对表达我们的无知和提出幼稚的问题持开放态度。同样,当我们自己以外的学科的人提出幼稚的建议时,不要忽视它。也许这是个好主意。很多时候是这样。
“建设性地”意味着所有这些讨论都需要着眼于使结果更好,而不是成为房间里最聪明的人。而“尊重”意味着你必须对每个人为努力提供的专业知识和价值深表尊重,无论他们的角色、背景或水平如何。
所以,我认为这是在招聘合适的人。想要了解如何对他们产生的数据进行数据科学的生命科学家。或者,希望与生命科学家真正密切合作的机器学习数据科学家,以确保他们所做的机器学习不是某种抽象,而是对患者具有真正的价值。还有一些会说两种语言的人,因为他们在担任翻译方面非常重要。
或许你可以暂时为我做这样的翻译。可以说,过去一年最大的科学进步是开发了真正准确的人工智能驱动的蛋白质折叠预测。这是一个巨大的基准,用于确定使用 AI 解决生物学难题的潜力。您认为发生了什么变化,机器学习方法现在开始在生物学和生物制药领域产生影响?
如果我不得不指出 AlphaFold 成功的最大贡献者,那就是数据可用性。
毫无疑问,所采用的机器学习方法非常周到且非常复杂。在这个领域,整个领域在自然语言、语音和图像的多种不同类型问题上取得了巨大进展。
AlphaFold 借鉴了许多这些进步以及多年的洞察力和思想,这些洞察力和思想进入了更传统的蛋白质折叠算法。他们使用了很多相同的技巧,但他们没有像通常所做的那样以某种手工编码的方式将这些技巧合并到算法中。相反,它们被用作设计机器学习模型的基础,该模型结合了这些见解,但基本上从数据中学习了模型的细节。但这就是归结为数据的地方。
在其他领域实现类似的跨越需要什么?我想说两件事。一是大量的高质量数据。在这种情况下,是它们折叠成的序列和结构,这是社区努力结晶蛋白质结构、测量它们并以公共方式存放它们的结果。
另一个是有一个非常明确的问题和一种评估你是否正在解决问题的方法。这就是允许机器优化的原因。当你想到我们在生物学和药物发现中遇到的其他一些关键问题时,这些都不是真的。让我们以预测哪个小分子将调节蛋白质为例,这是超越蛋白质折叠问题的下一步。我们在公共领域有多少数据?不是很多。而且它的质量很差。在许多情况下,它的测量非常不一致。可用于评估进展的黄金标准数据集并不多。这是一个问题,至少我给出了一个明确的问题。
我专门设计了一个实验来提供机器学习模型。当您这样做时,事实证明,实验设计实际上与您尝试进行科学发现时所做的实验设计完全不同。
如果你考虑一个更高层次的,例如,调节这个基因对患者有临床益处吗?没有一个非常清晰的数据库记录,如果我调节这个目标,它会帮助这个患者群体。而且没有明确定义的基本事实。
那么,您如何设计机器学习模型,以及如何评估它在继续优化模型架构时做得更好?这才是真正的核心:缺乏数据和缺乏明确定义的问题,您可以在其中真正评估进展。
今天是否有任何特定的疾病领域适合机器学习?是否存在看起来足够明确的具体问题或我们有数据可以解决的疾病?
所以,让我澄清一下。当我说这些很难时,我并没有说它们不可能很难或不应该解决。回答干预特定基因是否真的会调节疾病非常重要。它为任何解决它的人提出了一个有趣的问题:我如何创建一个允许我们回答问题的代理数据集?
在 instro,我们通过查看两种互补形式的数据来解决这个问题。一个是人类遗传学,大自然干预了一个基因,然后我们可以看到它有什么临床影响。另一个是在一个基于人类细胞的系统中,我们实际上可以干预一个基因,看看会发生什么。
问题是,你如何获取这两种形式的数据,它们都不能提供你想要的信息,并将它们放在一起为正确的机器学习提供输入?你如何定义机器学习算法试图解决的问题?但这是解决创建代理数据集问题的一种方法。
解决使用代理数据集这一问题的另一种方法是,生物学、化学和生命科学在过去两年中为我们提供了许多方法,可以大规模地创建生物和化学数据。
还需要对如何进行实验进行更多标准化,并更多地共享核心方法和协议。
我们在 instro 所做的,我认为其他人也开始做的是,创建具有特定目的的数据,而不是科学假设的发现或验证,而是用于机器学习方法。
也就是说,我们专门设计了一个实验来提供机器学习模型。当您这样做时,事实证明,实验设计实际上与您尝试进行科学发现时所做的实验设计完全不同。
解决需要大量优质数据的问题:人们普遍承认,广泛使用的大型人类遗传数据集并不能代表普通人群的遗传多样性。那么,在利用有偏见的数据构建 AI 平台时,如何避免偏见呢?您如何确保发现和开发适用于一般人群的药物,同时了解数据的局限性?
是的,所以我认为这是一个非常重要的问题,将它分开是很有用的。我的意思是,如果我们试图做的是建立一个从遗传学到表型的预测模型,那么很明显,如果你在白种人身上训练一个模型,它就不能对非裔美国人做出很好的预测。
但如果你正在做的是揭示导致疾病的核心生物学过程,那么最终我们都是人类,而且无论谁患有疾病,这都是通常在疾病中功能失调的同一组生物学。现在,导致疾病的生物学机制 X 与生物学机制 Y 的比例可能不同,因为我们每个人都对基于我们自己的遗传学和我们来自的背景的一组特定突变具有优势。但如果其他人与我有相同的突变,他们仍然会以同样的方式引起疾病。只是这些突变在他们的人群中发生的频率可能低于他们在我的人群中发生的频率。因此,它肯定会偏向您可以做出的一系列发现,但通常不会改变这些发现的有效性。
在许多情况下,拥有一个标准,即使它不完美,实际上也比拥有一百万个相互不一致的标准要好。
现在,我绝对认为,当我们试图调查在某些人群中更为常见的疾病时,我们将希望扩大我们的遗传多样性。或者,如果我们想发现在一个人群中比在另一个人群中更常见的某些疾病的新机制。通过这种方式,我们可以确保找到足够的这些机制的例子,以便我们有药物也能击中这些机制。
回到你之前提到的关于没有激励学者为耐用性而建立的观点。生物科学界的许多开源软件往往来自学术实验室,但由于您提到的原因,它的维护并不好。有趣的是,在 Insitro,您去年开源了您的数据科学工具 redun 。正如您所说,鉴于公司为耐用性而构建,公司将其代码和工作流程作为开源发布是否可以成为解决生物科学软件工具缺乏耐用性的潜在解决方案?
我认为这肯定是其中很大一部分。我们为发布 redun 感到非常自豪,因为它是如此广泛有用的工具,有助于解决我认为最大的差距之一,即如何进行可重复的科学。它有效地跟踪您在流程的每个步骤中使用的版本。因此,如果您需要重现您放置的结果,那么您知道您是如何做到的。它跟踪数据来源。
不过,这不会是完整的解决方案,因为现在我们生成的数据类型以及它们是如何生成的,甚至是如何考虑它们的变化很大。还需要对如何进行实验进行更多标准化,并更多地共享核心方法和协议。这也将有助于解决重现性问题。
作为一个社区,我们也做得不够,无法真正为每个人所做的事情建立一套一致的最佳实践和标准。这将非常有帮助,不仅可以使科学更具可重复性,还可以创建对机器学习更有用的数据存储库。
我的意思是,如果你从一组单独的实验中收集到一堆数据,并尝试将它们放在一起并在其中运行机器学习,那只会发疯。它会过度拟合与潜在生物学无关的事物,因为这些信号将比你试图询问的生物学更具预测性和更强的信号。所以我认为我们作为一个社区需要做得更好,以实现可重复的科学。
正如您所描述的,您如何看待重现性的解决方案?
我认为一些社区在制定一套大多数人都遵循的标准方面做得比其他社区做得更好。例如,统计遗传学界有一套工具,用于调用变异、测量连锁不平衡、测量关联以及它们如何定义全基因组意义。
这些决定中的每一个都可以事后猜测,并且可以对所有这些决定进行改进。但在许多情况下,即使有一个标准并不完美,也比拥有一百万个相互不一致的标准要好。
Insitro CEO 关于放弃 PI 思维和下一个 AlphaFold 我们需要什么两件事的帖子首先出现在Future上。
原文: https://future.com/koller-insitro-drug-discovery-ai-alphafold/