Kouzou Sakai 为广达杂志
2017 年, Roger Guimerà和Marta Sales-Pardo发现了细胞分裂的原因,该过程推动了生物的生长。但他们无法立即透露他们是如何得知答案的。研究人员自己并没有发现他们数据中的关键模式。相反,他们的一项未发表的发明——他们称之为“机器科学家”的数字助理——将其交给了他们。在写下结果时,Guimerà 回忆道:“我们不能只说我们将它提供给算法,这就是答案。没有评论者会接受这一点。”
两人是生活和研究的合作伙伴,他们与前同学、加泰罗尼亚生物工程研究所的生物物理学家Xavier Trepat合作,以确定哪些因素可能引发细胞分裂。许多生物学家认为,当细胞超过一定大小时,就会发生分裂,但 Trepat 怀疑这个故事还有更多。他的团队专门破译成群细胞在争夺位置时在柔软表面上留下的纳米级印记。 Trepat 的团队积累了详尽的数据集,记录了形状、力量和其他十几个细胞特征。但是测试这些属性可能影响细胞分裂的所有方式将花费一生的时间。
相反,他们与 Guimerà 和 Sales-Pardo 合作,将数据提供给机器科学家。在几分钟内,它返回了一个简洁的方程,该方程预测一个细胞何时分裂比仅使用细胞大小或任何其他单一特征的方程精确 10 倍。根据机器科学家的说法,重要的是大小乘以一个细胞被其邻居挤压的程度——一个具有能量单位的量。
“它能够获得一些我们没有的东西,”Trepat 说,他和 Guimerà 是加泰罗尼亚研究和高级研究机构 ICREA 的成员。
由于研究人员尚未发表任何有关机器科学家的信息,他们进行了第二次分析以覆盖其踪迹。正如他们后来所写的那样,他们手动测试了数百对变量,“不管它们的物理或生物学意义如何”。通过设计,这恢复了机器科学家的答案,他们在 2018 年的Nature Cell Biology上报告了该答案。
西班牙 Rovira i Virgili 大学的 Roger Guimerà 和 Marta Sales-Pardo 领导的团队构建了一个强大的符号回归算法,称为贝叶斯机器科学家。
阿尔巴·罗德里格斯
西班牙 Rovira i Virgili 大学的 Roger Guimerà 和 Marta Sales-Pardo 领导的团队构建了一个强大的符号回归算法,称为贝叶斯机器科学家。
阿尔巴·罗德里格斯
四年后,这种尴尬的局面正迅速成为一种公认的科学发现方法。 Sales-Pardo 和 Guimerà 是少数几位开发最新一代工具的研究人员之一,该工具能够进行称为符号回归的过程。
符号回归算法有别于深度神经网络,著名的人工智能算法可能会吸收数千个像素,让它们在数百万个节点的迷宫中渗透,并通过不透明的机制输出“狗”这个词。符号回归类似地识别复杂数据集中的关系,但它以人类研究人员可以理解的格式报告发现:一个简短的方程。这些算法类似于 Excel 曲线拟合函数的增压版本,不同之处在于它们不仅寻找直线或抛物线来拟合一组数据点,还寻找数十亿个各种公式。通过这种方式,机器科学家可以让人类了解细胞分裂的原因,而神经网络只能预测它们何时分裂。
几十年来,研究人员一直在修补这些机器科学家,小心翼翼地诱使他们从清晰的数据集中重新发现教科书般的自然法则,这些数据集排列成使模式突然出现。但近年来,这些算法已经变得足够成熟,可以在真实数据中找出未被发现的关系——从湍流如何影响大气到暗物质如何聚集。 “毫无疑问,”13 年前启动符号回归研究的哥伦比亚大学机器人专家Hod Lipson说。 “整个领域都在向前发展。”
机器科学家的崛起
物理学家偶尔会通过纯粹的推理得出伟大的真理,比如阿尔伯特·爱因斯坦通过从另一个光束的角度想象一束光束来直觉空间和时间的柔韧性。然而,更多的时候,理论是从马拉松式的数据处理会议中诞生的。 16 世纪的天文学家第谷·布拉赫去世后,约翰内斯·开普勒接触到了布拉赫笔记本中的天体观测。开普勒花了四年时间才确定火星在天空中描绘的是一个椭圆,而不是他认为的其他几十个蛋状形状。他通过蛮力计算发现了另外两个关系,以遵循这个“第一定律”。这些规律后来将艾萨克·牛顿引向他的万有引力定律。
符号回归的目标是加速这种开普勒试验和错误,扫描将变量与基本数学运算联系起来的无数方法,以找到最准确地预测系统行为的方程。
天体物理学家以两种方式模拟太阳系的行为。首先,他们使用 NASA 数十年的数据来训练神经网络。然后,他们使用符号回归算法将该模型进一步提炼成一个方程。在这些视频中——将真实位置显示为实体对象,将模型预测显示为金属丝网轮廓——神经网络(左)比符号回归算法(右)差得多。
天体物理学家以两种方式模拟太阳系的行为。首先,他们使用 NASA 数十年的数据来训练神经网络。然后,他们使用符号回归算法将该模型进一步提炼成一个方程。在这些视频中——将真实位置显示为实体对象,将模型预测显示为金属丝网轮廓——神经网络(顶部)比符号回归算法(底部)做得差得多。
第一个在这方面取得重大进展的程序称为BACON ,由当时在卡内基梅隆大学的认知科学家和人工智能研究员 Patrick Langley 在 1970 年代后期开发。例如,BACON 会包含一列轨道周期和一列不同行星的轨道距离。然后它将以不同的方式系统地组合数据:周期除以距离、周期平方乘以距离等。如果它找到一个恒定值,它可能会停止,例如,如果周期平方除以距离的立方总是给出相同的数字,这是开普勒的第三定律。一个常数意味着它已经确定了两个比例量——在这种情况下,周期平方和距离立方。换句话说,当它找到一个方程时它就停止了。
尽管重新发现了开普勒第三定律和其他教科书经典,但在计算能力有限的时代,培根仍然是一种好奇心。研究人员仍然必须手动分析大多数数据集,或者最终使用类似 Excel 的软件来分析,当给定特定类别的方程时,该软件会找到最适合简单数据集的软件。直到 2009 年,康奈尔大学的机器人专家 Lipson 和 Michael Schmidt 开发了一种名为 Eureqa 的算法,算法可以找到描述任何数据集的正确模型的想法一直处于休眠状态。
他们的主要目标是建造一台机器,可以将具有一列又一列变量的扩展数据集归结为一个涉及少数几个实际重要变量的方程。 “这个方程可能最终有四个变量,但你事先不知道哪些变量,”Lipson 说。 “你把所有东西和厨房水槽都扔给它。也许天气很重要。也许每平方英里的牙医数量很重要。”
解决众多变量的一个持久障碍是找到一种反复猜测新方程的有效方法。研究人员说,您还需要灵活地尝试(并从中恢复)潜在的死胡同。当算法可以从一条线跳到一条抛物线,或者添加一个正弦波纹时,它在变得更好之前可能会变得更糟,尽可能多地命中数据点。为了克服这一挑战和其他挑战,1992 年,计算机科学家 John Koza 提出了“遗传算法”,将随机“突变”引入方程,并根据数据测试突变方程。经过多次试验,最初无用的功能要么发展出强大的功能,要么逐渐消失。
Lipson 和 Schmidt 将这项技术提升到了一个新的水平,通过在 Eureqa 中建立正面竞争来增加达尔文的压力。一方面,他们孕育了方程式。另一方面,他们随机选择了哪些数据点来测试方程——“最适合”的点是那些对方程最有挑战的点。 “为了进行军备竞赛,你必须建立两个不断发展的事物,而不仅仅是一个,”利普森说。
Eureqa 算法可以处理涉及十几个变量的数据集。它可以成功地恢复高级方程,例如描述一个钟摆悬挂在另一个钟摆上的运动。
与此同时,其他研究人员正在寻找训练深度神经网络的技巧。到 2011 年,它们在学习区分猫和狗以及执行无数其他复杂任务方面取得了巨大成功。但是一个训练有素的神经网络由数百万个具有数值价值的“神经元”组成,它们并没有说明他们学会了识别哪些特征。就其本身而言,Eureqa 可以用人类语言传达其发现:物理变量的数学运算。
当 Sales-Pardo 第一次和 Eureqa 一起玩时,她感到很惊讶。 “我认为这是不可能的,”她说。 “这很神奇。这些人怎么可能做到?”她和 Guimerà 很快就开始使用 Eureqa 为他们自己的网络研究建立模型,但他们同时对它的强大功能印象深刻,并对其不一致感到沮丧。该算法会演化出预测方程,但随后它可能会过冲并落在一个过于复杂的方程上。或者研究人员会稍微调整他们的数据,然后 Eureqa 会返回一个完全不同的公式。 Sales-Pardo 和 Guimerà 着手从头开始设计一位新的机器科学家。
一定程度的压缩
在他们看来,遗传算法的问题在于他们过于依赖创造者的口味。开发人员需要指导算法在简单性和准确性之间取得平衡。一个方程总是可以通过附加项来达到数据集中的更多点。但是一些边远点只是嘈杂,最好忽略。比如说,人们可以将简单性定义为方程的长度,将准确性定义为曲线与数据集中每个点的接近程度,但这些只是众多选项中的两个定义。
Sales-Pardo 和 Guimerà 与合作者一起,利用物理学和统计学方面的专业知识,根据称为贝叶斯理论的概率框架重塑进化过程。他们首先下载了维基百科中的所有方程式。然后,他们对这些方程进行统计分析,看看哪些类型最常见。这使他们能够确保算法的初始猜测是直截了当的——例如,使其更有可能尝试加号而不是双曲余弦。然后,该算法使用随机抽样方法生成方程的变化,该方法在数学上被证明可以探索数学领域的每一个角落。
在每一步,该算法都会根据候选方程对数据集的压缩程度来评估它们。例如,一点随机点根本无法压缩;你需要知道每个点的位置。但是如果 1,000 个点沿着一条直线落下,它们可以被压缩成两个数字(直线的斜率和高度)。这对夫妇发现,压缩程度为比较候选方程提供了一种独特且无懈可击的方式。 “你可以证明正确的模型是压缩数据最多的模型,”吉梅拉说。 “这里没有任意性。”
经过多年的发展——以及秘密使用他们的算法来找出触发细胞分裂的原因——他们和他们的同事在 2020 年的《科学进展》中描述了他们的“贝叶斯机器科学家”。
数据海洋
从那时起,研究人员聘请了贝叶斯机器科学家来改进用于预测一个国家能源消耗的最先进的方程,而另一组则使用它来帮助模拟通过网络的渗透。但开发人员预计,这类算法将在像 Trepat 那样的生物学研究中发挥巨大作用,因为科学家们正越来越多地淹没在数据中。
机器科学家也在帮助物理学家理解跨越多个尺度的系统。物理学家通常对原子使用一组方程,对台球使用一组完全不同的方程,但这种零散的方法不适用于气候科学等学科的研究人员,因为曼哈顿周围的小规模洋流流入大西洋的海湾流。
其中一位研究人员是纽约大学的Laure Zanna 。在她模拟海洋湍流的工作中,她经常发现自己夹在两个极端之间:超级计算机可以模拟城市大小的涡流或洲际洋流,但不能同时模拟两种尺度。她的工作是帮助计算机生成包含较小漩涡影响的全局图片,而无需直接模拟它们。最初,她转向深度神经网络来提取高分辨率模拟的整体效果,并相应地更新更粗略的模拟。 “他们太棒了,”她说。 “但我是一名气候物理学家”——这意味着她想根据压力和温度等少数物理原理来了解气候是如何运作的——“所以很难接受和对数千个参数感到满意。”
然后她遇到了华盛顿大学应用数学家Nathan Kutz设计的机器科学家算法。 Kutz 的算法采用了一种称为稀疏回归的方法,这种方法在精神上类似于符号回归。它没有在变异方程之间建立一场大逃杀,而是从一个可能有上千个函数的库开始,比如x 2 、 x /( x − 1) 和 sin( x )。该算法在库中搜索给出最准确预测的术语组合,删除最不有用的术语,并继续直到它只剩下少数几个术语。与符号回归算法相比,闪电般的过程可以处理更多的数据,但代价是探索的空间更小,因为最终方程必须由库项构建。
Zanna 从头开始重新创建 Kutz 的稀疏回归算法以了解其工作原理,然后将修改后的版本应用于海洋模型。当她输入高分辨率电影并要求算法寻找精确的缩小草图时,它返回了一个简洁的方程,其中涉及涡度以及流体如何拉伸和剪切。当她将此输入到她的大规模流体流动模型中时,她比以前更真实地看到了流动变化作为能量的函数。
“该算法采用了额外的术语,”Zanna 说,产生了一个“美丽”的方程,“真正代表了洋流的一些关键特性,即拉伸、剪切和 [旋转]。”
一起更聪明
其他团体通过将他们的优势与深度神经网络的优势相结合,为机器科学家提供了推动力。
普林斯顿大学天体物理学研究生Miles Cranmer开发了一种类似于 Eureqa 的开源符号回归算法,称为 PySR。它在数字“岛屿”上建立了不同的方程组,并让最适合数据的方程周期性地迁移并与其他岛屿的居民竞争。 Cranmer 与 DeepMind 和纽约大学的计算机科学家以及 Flatiron 研究所的天体物理学家合作,提出了一种混合方案,他们首先训练神经网络完成任务,然后要求 PySR 找到一个描述神经网络某些部分的方程学会了做。
作为概念的早期证明,该小组将该程序应用于暗物质模拟,并根据相邻云的特性生成了一个公式,该公式给出了暗物质云中心的密度。该方程比现有的人工设计方程更适合数据。
机器人专家 Hod Lipson 帮助启动了符号回归的研究。
2 月,他们为他们的系统提供了价值 30 年的太阳系行星和卫星在天空中的真实位置。该算法完全跳过了开普勒定律,直接推断出牛顿的万有引力定律以及行星和卫星的质量。其他小组最近使用 PySR 来发现描述粒子碰撞特征的方程、结体积的近似值以及暗物质云在其中心塑造星系的方式。
在越来越多的机器科学家中(另一个值得注意的例子是“ AI Feynman ”,由麻省理工学院的物理学家 Max Tegmark 和 Silviu-Marian Udrescu 创建),人类研究人员说越多越好。 “我们真的需要所有这些技术,”库茨说。 “没有一颗是灵丹妙药。”
Kutz 相信机器科学家正在将该领域带到他所谓的“GoPro 物理学”的风口浪尖,研究人员只需将相机对准一个事件并返回一个捕捉正在发生的事情本质的方程式。 (当前的算法仍然需要人类为他们提供一份潜在相关变量的清单,如位置和角度。)
这就是 Lipson 最近一直在做的事情。在12 月的预印本中,他和他的合作者描述了一个程序,他们首先训练了一个深度神经网络来接收视频的几帧并预测接下来的几帧。然后,该团队减少了神经网络允许使用的变量数量,直到其预测开始失败。
该算法能够计算出模拟钟摆等简单系统和篝火闪烁等复杂设置需要多少变量——没有明显变量可跟踪的火焰之舌。
“我们没有他们的名字,”利普森说。 “它们就像火焰中的火焰。”
(机器)科学的边缘
机器科学家不会取代深度神经网络,后者在混乱或极其复杂的系统中大放异彩。没有人期望找到一个猫性和狗性的等式。
然而,当涉及到围绕行星运行、晃动流体和分裂细胞时,利用少量操作得出的简明方程式却令人费解地准确。诺贝尔奖获得者尤金·维格纳(Eugene Wigner)在他 1960 年的论文《自然科学中数学的不合理有效性》中称这是一个事实,即“我们既不理解也不配得的美妙礼物”。正如克兰默所说,“如果你查看任何物理考试方程式的备忘单,它们都是极其简单的代数表达式,但它们表现得非常好。”
Cranmer 及其同事推测,基本运算之所以如此出色,是因为它们代表了空间中的基本几何动作,使它们成为描述现实的自然语言。加法将对象向下移动到数轴。乘法将平坦区域变成 3D 体积。出于这个原因,他们怀疑,当我们猜测方程式时,押注简单是有道理的。
然而,宇宙潜在的简单性并不能保证成功。
Guimerà 和 Sales-Pardo 最初构建了他们在数学上严格的算法,因为 Eureqa 有时会为相似的输入找到截然不同的方程。然而,令他们沮丧的是,他们发现即使是他们的贝叶斯机器科学家有时也会为给定的数据集返回多个同样好的模型。
两人最近表明,原因在于数据本身。利用他们的机器科学家,他们探索了各种数据集,发现它们分为两类:干净的和嘈杂的。在更干净的数据中,机器科学家总能找到生成数据的方程式。但超过一定的噪声阈值,它永远不可能。换句话说,噪声数据可以同样好(或差)匹配任意数量的方程。而且因为研究人员已经概率性地证明了他们的算法总能找到最佳方程,他们知道在它失败的地方,没有其他科学家——无论是人类还是机器——都能成功。
“我们发现这是一个基本限制,”吉梅拉说。 “为此,我们需要机器科学家。”
编者注:熨斗研究所由西蒙斯基金会资助,该基金会也资助了这本编辑独立的出版物。