寻找模式：了解我们如何看待世界

Tim Oleskiw 是计算神经科学中心的 Flatiron 研究员。

未来，复制人类视觉的计算模型可以帮助在危险的搜救任务中寻找失踪人员。相同的模型可用于为盲人或视力低下的人设计视觉辅助工具。但在此之前，科学家们需要弄清楚来自我们眼睛的信号是如何在我们的大脑中被处理和转换的。

熨斗研究所研究员蒂姆·奥莱斯基 (Tim Oleskiw ) 正在努力做到这一点。借助实验数据和计算模型，Oleskiw 正试图了解大脑如何感知视觉的基本信号。他希望这项工作最终可以用于设计视觉辅助工具和计算视觉系统。

Oleskiw 于 2020 年作为研究员加入熨斗研究所的计算神经科学中心。他的实验工作在纽约大学神经科学中心的视觉神经科学实验室进行。 Oleskiw 在华盛顿大学获得应用数学博士学位，在约克大学获得计算机科学硕士学位。

Oleskiw 最近与西蒙斯基金会谈论了他的工作以及我们如何看待周围的世界。为清楚起见，对对话进行了编辑。

你目前在做什么项目？

我使用实验和计算方法来映射我们视觉系统的各个部分。我对理解视觉的中间过程特别感兴趣：我们的大脑开始理解表面、边界和形状的点，使我们能够感知自然环境中的单个物体。

光线进入我们的眼睛并撞击视网膜后，信号被发送到大脑后部的初级视觉皮层 V1。 V1 响应边缘，例如对象边界。例如，如果我给你看一张半黑半白的纸，V1 中的神经元会响应并识别它们之间的边缘或边界。我研究离开 V1 的信息如何在称为 V2 的视觉皮层的后续区域中处理。

V2 处理将 V1 中检测到的对比度边缘或模式分组和处理为更有意义的信号。苹果的边缘或叶子的曲线等特征被编码在区域 V2 以及另一个称为 V4 的皮层区域。然后将此信息发送到大脑的其他部分，例如下颞叶皮层，负责识别图像。最后，更高的大脑区域负责其他过程，例如移动您的手臂以抓住您识别的物体。

第一个关于人类视觉的实验可以追溯到 1950 年代，并且主要归属于对 V1 的研究。现在，我们正在做更多相同的工作——但在更复杂的大脑区域，使用更复杂的计算工具。

你如何研究这些大脑区域？

我们使用实验和计算技术来收集和分析有关真实大脑如何工作的数据。在我们纽约大学的设施中，我们训练灵长类动物观看电脑显示器，并在它们看到不同图像时跟踪它们的神经活动：颜色条以不同方向和大小出现在屏幕上的不同位置。有了这个，我们试图激活不同的神经区域，看看哪些区域负责视觉的不同部分。通过记录神经活动并对其建模，我们可以绘制神经元图并使用机器学习和人工智能了解它们是如何连接的。

多年来，我们收集了大型数据集，我们用这些数据集来训练一个模型，该模型描述了哪些神经元参与感知不同的视觉线索。我们正在通过使用一些额外数据（未用于训练我们的模型）并向其展示我们向动物展示的相同图像来测试模型。

为什么了解这些视觉过程很重要？

简而言之：我们仍然不知道视觉是如何工作的。已经有很多尝试通过机器学习和人工智能来解决某些视觉任务，比如面部识别。有时这些任务是有效的，但与我们自己的视觉系统相比，它们有明显的局限性，而且从研究生物视觉系统的工作原理中可以学到很多东西。我们使用的方法就像逆向工程，我们正在学习大脑如何处理视觉以便能够将其应用于计算机视觉系统。从本质上讲，我们将视觉分解成各个组成部分，研究视觉系统的每个区域，以便对整个系统进行推断。

最终目标是建立复制类人视觉的计算模型。如果我们能够制造一台能够像人类一样感知世界的机器，那么我们就可以让盲人恢复视力，或者改善当前技术不足以满足低视力人群的生活质量。

它还可以用于自动执行搜索和救援或在危险环境中操作的视觉任务。搜救人员使用部署在树木茂密的地形上的自动无人机的镜头来寻找失踪人员的情况并不少见。这需要大量的工作时间，而且目前对于计算视觉系统来说是一项过于复杂的任务。如果我们能弄清楚人脑如何将杂乱的视觉场景解析为显着的表面和物体——并区分树木、地面和人——我们就可以自动化这个过程，让训练有素的人腾出时间去做其他任务。

这些应用程序还有多远？

我希望在几十年后，我们将对每个区域的作用、它们的功能有一个很好的了解，并且我们将能够对它们进行建模。我认为将从我们正在开发的视觉修复术中受益的人已经出生。理解视觉可能产生的技术确实有可能改变生活。

原文： https://www.simonsfoundation.org/2023/04/26/looking-for-patterns-understanding-how-we-see-the-world/