自学成才的人工智能与大脑的工作方式有相似之处

Quanta 杂志的 Señor Salme

十年来，许多最令人印象深刻的人工智能系统都是使用大量标记数据进行教学的。例如，图像可能被标记为“虎斑猫”或“虎猫”，以“训练”人工神经网络以正确区分虎斑和虎。该战略既取得了惊人的成功，又严重不足。

这种“监督式”训练需要人工费力地标记数据，而神经网络通常会走捷径，学习将标签与最少、有时甚至是肤浅的信息联系起来。例如，神经网络可能会使用草的存在来识别奶牛的照片，因为奶牛通常是在田野中拍摄的。

加州大学计算机科学家阿列克谢·埃弗罗斯 ( Alexei Efros ) 说：“我们正在培养一代算法，就像整个学期都没来上课的本科生，然后在期末考试的前一天晚上，他们就死记硬背了。” ，伯克利。 “他们并没有真正学习这些材料，但他们在考试中表现出色。”

此外，对于对动物智能和机器智能的交叉感兴趣的研究人员来说，这种“监督学习”可能仅限于它对生物大脑的揭示。动物——包括人类——不使用标记数据集来学习。在大多数情况下，他们自己探索环境，并且通过这样做，他们对世界获得了丰富而深刻的理解。

现在，一些计算神经科学家已经开始探索使用很少或没有人工标记数据进行训练的神经网络。这些“自我监督学习”算法已被证明在人类语言建模以及最近的图像识别方面取得了巨大成功。在最近的工作中，使用自我监督学习模型构建的哺乳动物视觉和听觉系统的计算模型显示出比监督学习模型更接近大脑功能。对一些神经科学家来说，人工网络似乎开始揭示我们大脑用来学习的一些实际方法。

有缺陷的监督

受人工神经网络启发的大脑模型大约在 10 年前出现，大约在同一时间，一个名为AlexNet的神经网络彻底改变了对未知图像进行分类的任务。与所有神经网络一样，该网络由人工神经元层组成，这些计算单元相互连接，强度或“权重”可能不同。如果神经网络未能正确分类图像，则学习算法会更新神经元之间连接的权重，以降低在下一轮训练中错误分类的可能性。该算法对所有训练图像重复此过程多次，调整权重，直到网络的错误率低到可以接受的程度。

加州大学伯克利分校的计算机科学家 Alexei Efros 认为，大多数现代人工智能系统都过于依赖人工创建的标签。 “他们并没有真正学习这些材料，”他说。

大约在同一时间，神经科学家开发了灵长类视觉系统的第一个计算模型，使用 AlexNet 等神经网络及其继任者。联合看起来很有希望：例如，当猴子和人工神经网络显示相同的图像时，真实神经元和人工神经元的活动显示出一种有趣的对应关系。随后是听觉和气味检测的人工模型。

但随着该领域的发展，研究人员意识到监督训练的局限性。例如，2017 年，时任德国蒂宾根大学的计算机科学家 Leon Gatys 和他的同事拍摄了一张福特 T 型车的照片，然后在照片上覆盖了豹皮图案，生成了一张奇怪但易于识别的图像.领先的人工神经网络将原始图像正确分类为模型 T，但将修改后的图像视为豹。它专注于纹理，不了解汽车（或豹子，就此而言）的形状。

自监督学习策略旨在避免此类问题。在这种方法中，人类不会标记数据。相反，“标签来自数据本身，”瑞士巴塞尔弗里德里希米歇尔生物医学研究所的计算神经科学家Friedemann Zenke说。自监督算法本质上是在数据中创建空白，并要求神经网络填补空白。例如，在所谓的大型语言模型中，训练算法将向神经网络显示句子的前几个单词，并要求它预测下一个单词。当使用从互联网收集的大量文本进行训练时，该模型似乎可以学习语言的句法结构，展示出令人印象深刻的语言能力——所有这些都没有外部标签或监督。

计算机视觉方面也正在进行类似的努力。 2021 年末，何凯明及其同事展示了他们的“蒙面自动编码器”，该技术基于 Efros 团队在 2016 年开创的一项技术。自监督学习算法随机屏蔽图像，每张图像的近四分之三都被遮盖了。掩码自动编码器将未掩码部分转换为潜在表示——压缩的数学描述，其中包含有关对象的重要信息。（在图像的情况下，潜在表示可能是一种数学描述，其中包括图像中对象的形状。）然后解码器将这些表示转换回完整的图像。

计算神经科学家布莱克·理查兹帮助创建了一种模拟活体大脑视觉网络的人工智能。

例如，考虑人类和其他灵长类动物的视觉系统。这些是所有动物感觉系统中研究得最好的，但神经科学家一直在努力解释为什么它们包括两条独立的通路：腹侧视觉流，负责识别物体和面部，以及背侧视觉流，处理运动（“ what”和“where”路径）。

理查兹和他的团队创建了一个自我监督模型来暗示答案。他们训练了一个结合了两种不同神经网络的人工智能：第一个称为 ResNet 架构，专为处理图像而设计；第二个，称为循环网络，可以跟踪一系列先前的输入，以预测下一个预期的输入。为了训练组合 AI，团队从视频中的 10 帧序列开始，然后让 ResNet 一个一个地处理它们。然后循环网络预测第 11 帧的潜在表示，而不是简单地匹配前 10 帧。自监督学习算法将预测与实际值进行比较，并指示神经网络更新其权重以使预测更好。

理查兹的团队发现，使用单个 ResNet 训练的 AI 擅长物体识别，但不擅长对运动进行分类。但是，当他们将单个 ResNet 分成两部分，创建两条路径（不改变神经元总数）时，人工智能开发了一个表示对象，另一个表示运动，从而能够对这些属性进行下游分类——就像我们的大脑可能做。

为了进一步测试人工智能，该团队向它展示了一组视频，西雅图艾伦脑科学研究所的研究人员此前曾向老鼠展示过这些视频。像灵长类动物一样，老鼠的大脑区域专门用于静态图像和运动。当动物观看视频时，艾伦研究人员记录了小鼠视觉皮层的神经活动。

在这里，理查兹的团队也发现了人工智能和活体大脑对视频的反应方式的相似之处。在训练期间，人工神经网络中的一条通路变得更类似于小鼠大脑的腹侧、物体检测区域，而另一条通路变得类似于以运动为中心的背侧区域。

理查兹说，结果表明我们的视觉系统有两条专门的途径，因为它们有助于预测视觉的未来。单一途径是不够的。

人类听觉系统的模型讲述了一个类似的故事。 6 月，由 Meta AI 的研究科学家Jean-Rémi King领导的一个团队训练了一个名为 Wav2Vec 2.0 的 AI ，它使用神经网络将音频转换为潜在表示。研究人员掩盖了其中一些表示，然后将其输入另一个称为变压器的组件神经网络。在训练期间，transformer 会预测掩码信息。在这个过程中，整个 AI 学习将声音转化为潜在的表示——同样，不需要标签。该团队使用了大约 600 小时的语音数据来训练网络，“这大约是一个孩子在前两年的经验中所能得到的，”King 说。

Jean-Rémi King 帮助训练了一种人工智能，它以模仿大脑的方式处理音频——部分是通过预测接下来会发生什么。

元

一旦系统接受了训练，研究人员就会播放英语、法语和普通话的有声读物部分。研究人员随后将 AI 的性能与 412 人的数据进行了比较——这些人混合了三种语言的母语人士，他们在 fMRI 扫描仪中对大脑进行成像时听过相同的音频片段。金说，他的神经网络和人类大脑，尽管 fMRI 图像嘈杂且分辨率低，“不仅相互关联，而且以系统的方式关联”：人工智能早期层的活动与活动一致在初级听觉皮层，而人工智能最深层的活动与大脑中较高层的活动一致，在这种情况下是前额叶皮层。 “这是非常漂亮的数据，”理查兹说。 “这不是决定性的，但 [它] 另一个令人信服的证据表明，事实上，我们学习语言的方式在很大程度上是通过试图预测接下来会说的话。”

未治愈的病理

不是每个人都相信。麻省理工学院的计算神经科学家Josh McDermott致力于使用监督学习和自我监督学习来建立视觉和听觉感知模型。他的实验室设计了他所谓的“metamers”，合成的音频和视觉信号，对人类来说，只是难以理解的噪音。然而，对于人工神经网络来说，同色异谱似乎与真实信号无法区分。这表明在神经网络的更深层中形成的表征，即使是自我监督学习，也与我们大脑中的表征不匹配。 McDermott 说，这些自我监督学习方法“在某种意义上是进步的，因为您能够学习可以支持许多识别行为而不需要所有这些标签的表示”。 “但他们仍然有很多监督模型的病态。”

算法本身也需要更多的工作。例如，在 Meta AI 的 Wav2Vec 2.0 中，AI 只预测几十毫秒的声音的潜在表示——比发出感知上不同的噪音所需的时间更少，更不用说一个词了。 “有很多事情要做才能做一些类似于大脑所做的事情，”金说。

真正了解大脑功能需要的不仅仅是自我监督学习。一方面，大脑充满了反馈连接，而目前的模型几乎没有这样的连接，如果有的话。一个明显的下一步是使用自我监督学习来训练高度重复的网络——这是一个困难的过程——并看看这些网络中的活动与真实的大脑活动相比如何。另一个关键步骤是将自我监督学习模型中人工神经元的活动与单个生物神经元的活动相匹配。 “希望将来，[我们的]结果也将通过单细胞记录得到证实，”金说。

如果观察到的大脑和自我监督学习模型之间的相似性适用于其他感官任务，那么这将是一个更强有力的迹象，即我们的大脑能够发挥的任何魔法都需要某种形式的自我监督学习。 “如果我们确实发现了截然不同的系统之间的系统相似性，它[将]表明也许没有那么多方法可以以智能方式处理信息，”金说。 “至少，这是我们想要研究的一种美好假设。”

原文： https://www.quantamagazine.org/self-taught-ai-shows-similarities-to-how-the-brain-works-20220811/