斯蒂芬施密茨为广达杂志
2009 年,当时在普林斯顿大学的计算机科学家李飞飞发明了一个数据集,该数据集将改变人工智能的历史。该数据集被称为 ImageNet,包含数百万张标记图像,可以训练复杂的机器学习模型来识别图片中的某些内容。这些机器在2015 年超过了人类的识别能力。不久之后,李开始寻找她所谓的另一个“北极星”,它可以让人工智能以不同的方式推动真正的智能。
她通过回顾 5.3 亿年前的寒武纪大爆发找到了灵感,当时许多陆生动物物种首次出现。一个有影响力的理论认为,新物种的爆发部分是由能够第一次看到周围世界的眼睛的出现推动的。李意识到,动物的视觉永远不会自行发生,而是“深深植根于一个需要在瞬息万变的环境中移动、导航、生存、操纵和改变的整体身体中,”她说。 “这就是为什么我很自然地转向更积极的愿景 [for AI]。”
如今,Li 的工作重点是 AI 代理,它们不仅可以从数据集中接受静态图像,还可以在 3D 虚拟世界的模拟中四处移动并与环境交互。
这是一个被称为具身人工智能的新领域的广泛目标,而李并不是唯一一个拥抱它的人。它与机器人技术重叠,因为机器人可以是现实世界中体现的人工智能代理的物理等价物,以及强化学习——它总是训练一个交互式代理以使用长期奖励作为激励来学习。但李和其他人认为,具身人工智能可以推动从机器学习直接能力(如识别图像)到学习如何通过多个步骤执行复杂的类人任务(如制作煎蛋卷)的重大转变。
“当然,我们变得更加雄心勃勃,我们会说,‘好吧,构建一个智能代理怎么样?’到那时,你就会想到具身的人工智能,”加州大学伯克利分校的计算机科学家Jitendra Malik说。
创建 ImageNet 数据集的李飞飞制作了一组标准化的虚拟活动,以帮助评估这些学习机的进度。
由 Harini Sreepathi 和斯坦福大学以人为本的人工智能研究所提供
今天在具身人工智能中的工作包括任何可以探测和改变其自身环境的代理。虽然在机器人技术中,人工智能代理总是生活在机器人体内,但现实模拟中的现代代理可能有一个虚拟身体,或者他们可能通过仍然可以与周围环境交互的移动摄像机有利位置感知世界。 “体现的意义不是身体本身,而是与环境互动和做事的整体需求和功能,”李说。
这种交互性为代理提供了一种全新的——在许多情况下是更好的——了解世界的方式。这是观察两个对象之间可能存在的关系与自己尝试并导致关系发生之间的区别。有了这种新的理解,思想会随之而来,更大的智慧将随之而来。随着一套新的虚拟世界的启动和运行,具身人工智能代理已经开始发挥这种潜力,在他们的新环境中取得了重大进展。
德国奥斯纳布吕克大学的具身人工智能研究员Viviane Clay说:“目前,我们没有任何证据证明存在的智能不是通过与世界互动来学习的。”
迈向完美模拟
虽然研究人员长期以来一直想为 AI 代理创建逼真的虚拟世界以供探索,但直到过去五年左右他们才开始构建它们。这种能力来自电影和视频游戏行业推动的图形改进。 2017 年,人工智能代理可以让自己在第一个虚拟世界中在家中真实地描绘室内空间——在字面上,尽管是虚拟的家中。由艾伦人工智能研究所的计算机科学家建造的名为AI2-Thor的模拟器允许特工在自然主义的厨房、浴室、起居室和卧室中漫步。特工可以研究随着他们移动而变化的三维视图,当他们决定仔细观察时会暴露出新的角度。
这样的新世界也让代理人有机会推理新维度的变化:时间。 “这是最大的不同,”西蒙弗雷泽大学计算机图形学研究员Manolis Savva说,他已经构建了多个虚拟世界。 “在具身的人工智能环境中……你拥有这种时间上连贯的信息流,并且你可以控制它。”
这些模拟世界现在足以训练代理完成全新的任务。他们不仅可以识别一个对象,还可以与其交互、拾取并在其周围导航——看似很小的步骤,但对于任何代理了解其环境而言都是必不可少的步骤。 2020 年,虚拟代理超越了视觉,可以听到虚拟物体发出的声音,提供了另一种了解物体及其在世界上如何工作的方式。
可以在虚拟世界中运行的具身人工智能代理,例如此处显示的 ManipulaTHOR 环境,学习方式不同,可能更适合更复杂的类人任务。
由 Roozbeh Mottaghi 和艾伦人工智能研究所提供
这并不是说工作已经完成。 “即使是最好的模拟器,它也远不如现实世界那么真实,”斯坦福大学计算机科学家 Daniel Yamins 说。 Yamins 与麻省理工学院和 IBM 的同事共同开发了ThreeDWorld ,它着重于在虚拟世界中模仿现实生活中的物理学——比如液体的行为方式以及某些物体在一个区域是刚性的,而在其他区域是柔软的。
“这真的很难做到,”Savva 说。 “这是一个巨大的研究挑战。”
尽管如此,人工智能代理开始以新的方式学习就足够了。
比较神经网络
到目前为止,衡量具体人工智能进展的一种简单方法是将具体代理的性能与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期结果确实表明,具身人工智能代理的学习方式与他们的前辈不同——有时甚至更好。
在最近的一篇论文中,研究人员发现具身 AI 代理在检测特定对象方面更加准确,比传统方法提高了近 12%。艾伦人工智能研究所的合著者兼计算机科学家Roozbeh Mottaghi说:“物体检测社区花了三年多的时间才达到这一水平。” “仅仅通过与世界互动,我们就取得了这么大的进步,”他说。
其他论文表明,当您将传统训练的算法放入实体形式并允许它们仅探索一次虚拟空间时,或者当您让它们四处移动以收集对象的多个视图时,对象检测在传统训练算法中得到了改进。
研究人员还发现,具体算法和传统算法的学习方式根本不同。作为证据,请考虑神经网络——每个体现和许多非体现算法的学习能力背后的基本要素。神经网络是一种算法,具有多层连接的人工神经元节点,松散地模仿人脑中的网络。在两篇独立的论文中,一篇由 Clay 领导,另一篇由纽约大学新任教授Grace Lindsay领导,研究人员发现,具身代理中的神经网络响应视觉信息的神经元较少,这意味着每个单独的神经元更多选择性地选择它会响应什么。非实体网络的效率要低得多,并且大部分时间都需要更多的神经元才能处于活动状态。 Lindsay 的小组甚至将具身和非具身神经网络与活体大脑(小鼠的视觉皮层)中的神经元活动进行了比较,发现具身版本是最接近的匹配。
Meta AI 的 Dhruv Batra 团队创建了名为 AI Habitat 的虚拟世界。他们希望提高模拟的速度,直到具身的 AI 代理可以在 20 分钟的挂钟时间内达到 20 年的模拟体验。
“这是一个了不起的进步,”Mottaghi 说。 “但是,这并不意味着导航是一项已解决的任务。”部分原因是许多其他类型的导航任务使用更复杂的语言指令,例如“经过厨房取回卧室床头柜上的眼镜”,准确率仅保持在 30% 到 40% 左右。
但是导航仍然是具身 AI 中最简单的任务之一,因为代理在环境中移动而不操纵其中的任何东西。到目前为止,具身的 AI 代理还远未掌握任何带有对象的任务。部分挑战在于,当代理与新对象交互时,它可能会出错的方式有很多,并且错误会堆积起来。目前,大多数研究人员通过选择只需几个步骤的任务来解决这个问题,但大多数类似人类的活动,如烘焙或洗碗,都需要对多个对象进行长序列的操作。要实现这一目标,人工智能代理将需要更大的推动力。
再一次,Li 可能处于最前沿,她开发了一个数据集,她希望将其用于体现 AI,就像她的 ImageNet 项目为 AI 对象识别所做的那样。曾经她为 AI 社区提供了一个巨大的图像数据集,供实验室标准化输入数据,而她的团队现在已经发布了一个标准化的模拟数据集,其中包含 100 项类似人类的活动,供代理完成,可以在任何虚拟世界中进行测试。通过创建将执行这些任务的代理与执行相同任务的人类真实视频进行比较的指标,Li 的新数据集将使社区能够更好地评估虚拟 AI 代理的进度。
一旦智能体成功完成这些复杂的任务,Li 将模拟的目的视为对终极可操作空间的训练:现实世界。
“在我看来,模拟是机器人研究中最重要和最令人兴奋的领域之一,”她说。
新的机器人前沿
机器人本质上是具体化的智能代理。通过居住在现实世界中的某种物理身体,它们代表了最极端的具身人工智能代理形式。但许多研究人员现在发现,即使是这些代理也可以从虚拟世界的训练中受益。
“[机器人技术中的]最先进的算法,如强化学习和那些类型的东西,通常需要数百万次迭代才能学习有意义的东西,”Mottaghi 说。因此,训练真正的机器人完成艰巨的任务可能需要数年时间。
机器人在现实世界中导航不确定的地形。新的研究表明,虚拟环境中的训练可以帮助机器人掌握这些和其他技能。
阿什·库马尔
但首先在虚拟世界中训练他们提供了比实时训练更快的机会,成千上万的代理可以在数千个略有不同的房间内同时训练。此外,虚拟训练对于机器人及其路径上的任何附近人类来说也更安全。
许多机器人专家在2018 年开始更加认真地对待模拟器,当时 OpenAI 的研究人员证明了将技能从模拟转移到现实世界是可能的。他们训练了一只机械手来操纵它只在模拟中看到的立方体。最近的成功让飞行无人机学会了如何避免空中碰撞,自动驾驶汽车在两个不同大陆的城市环境中部署,四足狗状机器人同时在瑞士阿尔卑斯山完成一小时的徒步旅行它需要人类。
未来,研究人员还可能通过虚拟现实耳机将人类送入虚拟空间,从而缩小模拟与现实世界之间的差距。英伟达机器人研究高级主管、华盛顿大学教授迪特福克斯指出,机器人研究的一个关键目标是制造对现实世界中的人类有帮助的机器人。但要做到这一点,他们必须首先接触并学习如何与人类互动。
“使用虚拟现实让人类进入这些模拟环境,让他们能够展示事物并与机器人互动,这将非常强大,”福克斯说。
无论它们存在于模拟还是现实世界中,具身的 AI 代理都在学习更像我们,在更像我们每天所做的任务上学习。该领域同时在各个方面取得进展——新世界、新任务和新学习算法。
“我看到了深度学习、机器人学习、视觉甚至语言的融合,”李说。 “现在我认为通过这次登月或北极星实现人工智能,我们将学习智能或人工智能的基础技术,这真的可以带来重大突破。”
原文: https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/