这是最初在此处运行的帖子的编辑版本。
神经科学和人工智能有着悠久而相互交织的历史。人工智能先驱者将大脑组织原理作为制造智能机器的灵感。令人惊讶的是,人工智能现在正在帮助我们了解它的灵感来源:人脑。这种使用人工智能构建大脑模型的方法被称为神经人工智能。在接下来的十年里,我们将在计算机大脑模型中变得更加精确,尤其是我们最突出的两种感官——视觉和听觉的模型。因此,我们将能够按需下载和使用感官模型,其便利性与我们可以进行对象识别或自然语言处理相同。
许多神经科学家和人工智能研究人员——可以理解! – 对此感到非常兴奋:按需提供大脑!发现看、感受、做人的意义!不太为人所知的是,在工业中有广泛的实际应用。长期以来,我一直是该领域的研究人员,自攻读博士学位以来一直致力于研究大脑如何将视觉转化为意义。我从一开始就见证了该领域的发展,我认为现在是时候探索神经人工智能如何推动更多创造力和改善我们的健康了。
我预测,neuroAI 将首先在艺术和广告中得到广泛应用,尤其是在连接到 GPT-3 和 DALL-E 等新的生成 AI 模型时。虽然当前的生成式 AI 模型可以产生创意艺术和媒体,但它们无法告诉您该媒体是否最终会向目标受众传达信息——但神经人工智能可以。例如,我们可能会取代焦点小组和 A/B 测试的反复试验,并直接创建能够准确传达我们想要的内容的媒体。围绕这个应用程序的巨大市场压力将创造一个改善神经人工智能模型的良性循环。
由此产生的增强模型将使医学健康应用成为可能,从帮助有神经问题的人到提高井的能力。想象一下,分别在 LASIK 手术或植入人工耳蜗后,创建正确的图像和声音来帮助人们更快地恢复视力或听力。
这些创新将通过其他即将推出的技术变得更加强大:增强现实和脑机接口。然而,为了充分实现按需下载感官系统的潜在效用,我们需要填补当前在工具、人才和资金方面的空白。
在这篇文章中,我将解释什么是神经人工智能,它可能如何开始演变并开始影响我们的生活,它如何补充其他创新和技术,以及推动它向前发展所需的条件。
什么是神经人工智能?
NeuroAI 是一门新兴学科,旨在 1)研究大脑以学习如何构建更好的人工智能,以及 2)使用人工智能更好地理解大脑。神经人工智能的核心工具之一是使用人工神经网络来创建特定大脑功能的计算机模型。这种方法于 2014 年启动,当时麻省理工学院和哥伦比亚大学的研究人员表明,深度人工神经网络可以解释大脑中进行物体识别的部分的反应:颞下皮层 (IT)。他们介绍了一种将人工神经网络与大脑进行比较的基本方法。使用这个配方并在大脑过程中重复迭代测试——形状识别、运动处理、语音处理、手臂控制、空间记忆——科学家们正在为大脑构建一个拼凑的计算机模型。
将大脑与机器进行比较的秘诀
那么如何构建 NeuroAI 模型呢?自 2014 年成立以来,该领域一直遵循相同的基本配方:
1. 在计算机上训练人工神经网络以解决任务,例如物体识别。由此产生的网络称为任务优化。重要的是,这通常只涉及图像、电影和声音的训练,而不是大脑数据。
2. 将经过训练的人工神经网络的中间激活与真实的大脑记录进行比较。比较是使用线性回归或代表性相似性分析等统计技术完成的。
3. 选择表现最好的模型作为大脑这些区域的当前最佳模型。
此配方可应用于从单个神经元或非侵入性技术(如脑磁图 (MEG) 或功能性磁共振成像 (fMRI))收集到的大脑内部数据。
部分大脑的神经人工智能模型有两个关键特征。它是可计算的:我们可以给这个计算机模型提供一个刺激,它会告诉我们大脑区域将如何反应。它也是可区分的:它是一个深度神经网络,我们可以像优化解决视觉识别和自然语言处理的模型一样优化它。这意味着神经科学家可以使用所有推动深度学习革命的强大工具,包括 PyTorch 和 TensorFlow 等张量代数系统。
这是什么意思?在不到十年的时间里,我们从不了解大脑的大部分内容到能够下载好的大脑模型。通过正确的投资,我们很快就会拥有大脑大块的优秀模型。视觉系统是第一个被建模的;听觉系统也不甘落后;随着无畏的神经科学家急于解开大脑的奥秘,其他领域肯定会像多米诺骨牌一样倒下。除了满足我们的求知欲——科学家的一大动力!——这项创新将允许任何程序员下载良好的大脑模型并解锁无数应用程序。
应用领域
艺术和广告
让我们从这个简单的前提开始:我们所体验的 99% 的媒体都是通过我们的眼睛和耳朵来实现的。整个行业都可以归结为为这些感官提供正确的像素和色调:视觉艺术、设计、电影、游戏、音乐和广告只是其中的一小部分。现在,解释这些体验的不是我们的眼睛和耳朵本身,因为它们只是传感器:理解这些信息的是我们的大脑。媒体的创建是为了告知、娱乐、带来期望的情绪。但是,确定一幅画、专业头像或广告中的信息是否按预期接收是一个令人沮丧的试错练习:人类必须在循环中确定信息是否命中,这既昂贵又耗时——消耗。
大型在线服务通过自动化试错法找到了解决此问题的方法:A/B 测试。 谷歌著名地测试了搜索引擎结果页面上的链接使用 50 种蓝色阴影中的哪一种。据《卫报》报道,最佳选择导致 2009 年收入增长超过 2 亿美元的基线,大约是当时谷歌收入的 1% 。 Netflix 为观看者定制缩略图以优化其用户体验。这些方法适用于拥有大量流量的在线巨头,可以克服人们行为中固有的噪音。
如果我们能在获得任何数据之前预测人们对媒体的反应会怎样?这将使小型企业有可能优化他们的书面材料和网站,尽管它们几乎没有预先存在的吸引力。 NeuroAI 越来越接近于预测人们对视觉材料的反应。例如, Adobe 的研究人员正在开发工具来预测和引导插图中的视觉注意力。
研究人员还展示了编辑照片以使它们在视觉上更令人难忘或在美学上更令人愉悦。例如,它可以用于自动选择最符合人们想要投射的自己形象的专业头像——专业的、严肃的或有创意的。人工神经网络甚至可以找到比真实图像更有效地传达信息的方法。可以探测 OpenAI 的 CLIP 以找到与情绪一致的图像。最符合震惊概念的图像不会与蒙克的尖叫声相提并论。
OpenAI CLIP 最大化图像的震撼概念。通过 OpenAI Microscope,在 CC-BY 4.0 下发布。
在过去的一年里,OpenAI 和谷歌展示了生成艺术网络具有令人印象深刻的从文本提示生成逼真图像的能力。我们还没有完全达到音乐的那个时刻,但随着生成模型的进步步伐,这肯定会在未来几年内发生。通过制造可以像人类一样聆听的机器,我们或许可以使音乐制作民主化,让任何人都能做高技能音乐制作人可以做的事情:在合唱中传达正确的情绪,无论是忧郁还是欢乐;创造旋律的耳虫;或者让一段不可抗拒的舞蹈。
优化视听媒体、网站,尤其是广告面临着巨大的市场压力,我们已经将神经人工智能和算法艺术整合到这个过程中。这种压力将导致良性循环,随着更多资源投入实际应用,神经人工智能将变得更好、更有用。这样做的一个副作用是,我们将获得非常好的大脑模型,这将在广告之外非常有用。
可访问性和算法设计
神经人工智能最令人兴奋的应用之一是可访问性。大多数媒体都是为“普通”人设计的,但我们都以不同的方式处理视觉和听觉信息。 8% 的男性和 0.5% 的女性是红绿色盲,大量媒体不适应他们的需求。今天有许多模拟色盲的产品,但需要具有正常色觉的人来解释结果并进行必要的更改。静态颜色重新映射也不适用于这些需求,因为某些材料无法通过颜色重新映射来保留其语义(例如,变得难以阅读的图形)。我们可以通过维护现有图形语义的神经人工智能方法自动生成色盲安全材料和网站。
另一个例子是帮助有学习障碍的人,比如阅读障碍,影响全球多达 10% 的人。阅读障碍的潜在问题之一是对拥挤的敏感性,即难以识别具有相似基本特征的形状,包括像 p 和 q 这样的镜像对称字母。麻省理工学院的 Anne Harrington 和 Arturo Deza 正在研究模拟这种效应的神经人工智能模型,并获得了一些非常有希望的结果。想象一下,使用阅读障碍视觉系统的模型来设计既美观又易于阅读的字体。有了关于特定人视觉系统的正确数据,我们甚至可以为特定人个性化字体,这已显示出提高阅读性能的前景。这些可能是在这里等待的生活质量的巨大改善。
健康
许多神经科学家进入该领域,希望他们的研究能够对人类健康产生积极影响,特别是对患有神经系统疾病或精神健康问题的人。我非常希望神经人工智能能够解锁新的疗法:有了一个好的大脑模型,我们可以制作正确的刺激物,从而得到正确的信息,就像钥匙适合锁一样。从这个意义上说,neuroAI 可以类似地应用于算法药物设计,但我们提供的不是小分子,而是图像和声音。
最容易解决的问题涉及眼睛和耳朵的感受器,它们已经被很好地表征了。成千上万的人接受了人工耳蜗植入术,这种神经假体可以电刺激耳朵的耳蜗,让失聪或听力障碍的人再次听到声音。这些植入物包含几十个电极,很难在有多个扬声器的嘈杂环境中使用。大脑模型可以优化植入物的刺激模式以放大语音。值得注意的是,这项为有植入物的人开发的技术可以通过实时修改声音来帮助没有植入物的人更好地理解语音,无论他们是否患有听觉处理障碍,或者他们只是经常处于嘈杂的环境中。
许多人在其一生中都会经历感官系统的变化,无论是从白内障手术中恢复还是随着年龄的增长而变得近视。我们知道,经过这样的改变,人们可以通过重复学习重新正确地解读世界,这种现象称为感性学习。我们也许能够最大限度地利用这种感知学习,以便人们能够更快、更有效地恢复技能。类似的想法可以帮助中风后失去四肢流畅移动能力的人。如果我们能找到正确的运动顺序来最佳地增强大脑,我们也许能够帮助中风幸存者恢复更多功能,比如更流畅地行走或简单地拿着一杯咖啡而不会溢出。除了帮助人们恢复失去的身体机能之外,同样的想法还可以帮助健康的人达到最高的感官表现——无论他们是棒球运动员、弓箭手还是病理学家。
最后,我们可以看到这些想法被应用于情绪障碍的治疗。在大流行期间,我参加了许多视觉艺术展来缓解我的无聊,这极大地振奋了我的心情。视觉艺术和音乐可以振奋我们的精神,这是一个概念验证,我们可以通过感官为情绪障碍提供治疗。我们知道,用电刺激控制大脑特定部位的活动可以缓解难治性抑郁症;也许通过感官间接控制大脑的活动可以显示出类似的效果。通过部署简单的模型——容易实现的目标——影响大脑中易于理解的部分,我们将开始构建有助于人类健康的更复杂的模型。
推动技术趋势
NeuroAI 需要很多年才能被驯服并部署在应用程序中,它将拦截其他新兴技术趋势。在这里,我特别强调了两个将使神经人工智能更加强大的趋势:增强现实 (AR),它可以精确地传递刺激;和脑机接口 (BCI),它可以测量大脑活动,以验证刺激是否以预期的方式起作用。
增强现实
使神经人工智能应用程序更加强大的趋势是采用增强现实眼镜。增强现实 (AR) 有可能成为无处不在的计算平台,因为 AR 已融入日常生活。
Meta Reality Labs 的首席科学家 Michael Abrash 的假设是,如果你制造出足够强大的 AR 眼镜,每个人都会想要它们。这意味着构建能够创建持久的世界锁定虚拟对象的世界感知眼镜; 轻巧时尚的镜框,就像一双雷朋;并赋予您现实生活中的超能力,例如无论距离如何都能自然地与人互动并增强您的听力。如果你能制造出这些——一项巨大的技术挑战——AR 眼镜可以遵循类似 iPhone 的轨迹,这样每个人都会在推出 5 年后拥有一个(或仿制品)。
为了实现这一目标,Meta 去年斥资 100 亿美元用于元宇宙的研发。虽然我们不确定苹果在做什么,但有强烈迹象表明他们正在开发 AR 眼镜。因此,在供应方面也有巨大的推动力来实现 AR。
这将使广泛使用的显示设备比今天的静态屏幕更强大。如果它遵循 VR 的轨迹,它最终将集成眼动追踪。这将意味着一种广泛可用的方式来呈现比目前更可控的刺激,这是神经科学家的梦想。 正如迈克尔·阿布拉什(Michael Abrash)在 2017 年所说,这些设备可能具有深远的健康应用,例如增强弱光视力,或使人们在黄斑变性的情况下也能过上正常的生活。
神经人工智能的意义很明确:我们可以在日常生活中以高度可控的方式持续提供正确的刺激。这对于视觉来说是正确的,对于听觉来说可能不太明显,因为我们可以提供空间音频。这意味着我们为有神经问题的人提供神经人工智能疗法或改善可访问性的工具将变得更加强大。
脑机接口
凭借出色的显示器和扬声器,我们可以精确控制大脑的主要输入。通过感官传递刺激的下一个更强大的阶段是通过只读脑机接口 (BCI) 验证大脑是否以预期的方式做出反应。因此,我们可以测量刺激对大脑的影响,如果它们不符合预期,我们可以在所谓的闭环控制中进行相应的调整。
需要明确的是,这里我不是在谈论像 Neuralink 的芯片或进入颅骨内部的深脑刺激器这样的 BCI 方法。对于这些目的,非侵入性地测量颅骨外的大脑活动就足够了。也无需直接刺激大脑:您只需要眼镜和耳机即可控制大脑的大部分输入。
目前有许多非侵入式只读 BCI 已商业化或正在开发中,可用于闭环控制。一些例子包括:
- 脑电图。脑电图测量颅骨外大脑的电活动。由于头骨作为体积导体,EEG 具有高时间分辨率但低空间分辨率。虽然这限制了消费者对冥想产品 ( Muse ) 和利基神经营销应用的应用,但我看好它在闭环控制背景下的一些用途。当一个人能够控制刺激时,EEG 会更加强大,因为可以将呈现的刺激与 EEG 信号相关联,并解码一个人正在关注的内容(诱发电位方法)。事实上,基于诱发电位制作基于脑电图的“思维点击”的 NextMind被现在正在生产 AR 产品的 Snap收购。 OpenBCI计划发布一款将其 EEG 传感器与 Varjo 的高端 Aero 耳机集成在一起的耳机。我不会把 EEG 排除在外。
- 功能磁共振成像。功能性磁共振成像测量与神经活动相关的血氧含量的微小变化。它速度慢,不便携,需要自己的房间,而且非常昂贵。然而,功能磁共振成像仍然是唯一能够以空间精确的方式无创读取大脑深处活动的技术。有两种相当成熟的范式与闭环神经控制相关。第一个是基于 fMRI 的生物反馈。 fMRI 的一个子领域表明,人们可以通过在屏幕或耳机上直观地呈现大脑活动来调节大脑活动。第二个是皮层映射,包括诸如人口感受野和使用电影剪辑或播客估计体素选择性等方法,这使得人们可以估计不同的大脑区域如何对不同的视觉和听觉刺激作出反应。这两种方法暗示应该可以估计神经人工智能干预如何影响大脑并使其更有效。
- fNIRS。功能性近红外光谱使用漫射光来估计发射器和受体之间的脑血容量。它依赖于血液是不透明的这一事实,并且神经活动的增加会导致给定脑容量中的血液流入延迟(与 fMRI 的原理相同)。传统 NIRS 的空间分辨率较低,但通过时间门控 (TD-NIRS) 和大规模过采样(漫射光学断层扫描),空间分辨率要好得多。在学术方面, WUSTL 的 Joe Culver 小组已经展示了从视觉皮层解码电影。在商业方面,Kernel 现在正在制造和运输 TD-NIRS 耳机,这是令人印象深刻的工程壮举。这是一个人们不断推动、进步迅速的领域; 我在 Meta 的旧团队在一项相关技术中展示了信噪比(可以缩放到 >300)的 32 倍改进。
- 梅格。脑磁图测量磁场的微小变化,从而定位大脑活动。 MEG 与 EEG 相似之处在于它测量电磁场的变化,但它不受体积传导的影响,因此具有更好的空间分辨率。不需要冷藏的便携式 MEG 将改变非侵入性 BCI 的游戏规则。人们在光泵磁力计方面取得了进展,并且可以在公开市场上从 QuSpin 等制造商处购买单独的 OPM 传感器。
除了这些更广为人知的技术之外,一些黑马技术,如数字全息术、光声断层扫描和功能性超声,可能会导致该领域的快速范式转变。
虽然消费级非侵入式 BCI 仍处于起步阶段,但围绕 AR 用例存在许多市场压力,这将使蛋糕变得更大。事实上,AR 的一个重要问题是控制设备:如果可以避免的话,你不希望不得不带着控制器四处走动或对着眼镜喃喃自语。公司在解决这个问题上相当认真,2019 年Facebook 收购 CTRL+Labs 、Snap 收购 NextMind 以及 Valve 与 OpenBCI 合作就是明证。因此,我们很可能会看到低维 BCI 正在迅速发展。如果高维 BCI 找到像 AR 这样的杀手级应用,它们可能会遵循相同的轨迹。我在这里提倡的那种神经人工智能应用可能正是这项技术的正确用例。
如果我们可以控制眼睛和耳朵的输入并精确测量大脑状态,我们就可以以受监控的方式提供基于神经人工智能的疗法,以获得最大的疗效。
该领域缺少什么
NeuroAI 应用背后的核心科学正在迅速成熟,并且有许多积极的趋势将增加其普遍适用性。那么,将神经人工智能应用推向市场还缺少什么?
- 工具。人工智能中的其他子领域从能够快速进步和共享结果的工具箱中受益匪浅。这包括张量代数库(例如 Tensorflow 和 PyTorch)、训练环境(例如 OpenAI Gym)以及共享数据和模型的生态系统,例如拥抱脸。模型和方法的集中存储库以及评估套件可能会利用丰富的模拟数据,将推动该领域的发展。已经有一个强大的开源神经科学组织社区,它们可以作为这些努力的自然宿主。
- 天赋。在神经科学和人工智能的交叉点进行研究和开发的地方非常少。在斯坦福和伯克利设有实验室的湾区,以及在麻省理工学院和哈佛设有众多实验室的波士顿都会区,可能会看到大部分来自现有风险投资生态系统的投资。第三个可能的中心是加拿大的蒙特利尔,由麦吉尔大学和蒙特利尔大学的大型神经科学系以及由 AI 先驱 Yoshua Bengio 创立的人工智能研究所 Mila 共同推动。我们的领域将受益于神经人工智能的专业博士项目和卓越中心,以启动商业化。
- 医疗应用的新融资和商业化模式。医疗应用的商业化之路还有很长的路要走,受保护的知识产权通常是获得资金以降低技术投资风险的先决条件。众所周知,基于人工智能的创新很难申请专利,而软件即医疗设备 (SaMD) 才刚刚开始进入市场,这使得商业化之路充满不确定性。我们需要专注于将人工智能和医疗技术专业知识结合起来培育这个新兴领域的资金。
让我们构建neuroAI
自古以来,科学家和哲学家就对大脑如何工作感到困惑。一张面积一平方英尺的薄薄纸如何使我们能够看到、听到、感觉到和思考? NeuroAI 通过在计算机中构建神经系统模型来帮助我们处理这些深层次的问题。通过满足对知识的基本渴望——成为人类意味着什么? – 神经科学家也在构建可以帮助数百万人过上更富裕生活的工具。
AI is Modeling the Brain to Help Us See, Hear, and Create的帖子首先出现在Future上。
原文: https://future.com/applications-ai-models-of-the-brain-aka-neuroai/