几十年来,人们一直梦想着机器人管家,但最大的障碍之一就是让机器理解我们的指令。谷歌已经开始通过将最新的语言人工智能与最先进的机器人相结合来缩小差距。
人类的语言常常是模棱两可的。我们谈论事物的方式高度依赖于上下文,它通常需要对世界如何运作以破译我们正在谈论的内容有先天的理解。因此,虽然可以训练机器人代表我们执行行动,但将我们的意图传达给它们可能会很棘手。
如果他们有任何理解语言的能力,机器人通常被设计为响应简短的、具体的指令。像“我需要一些东西来把这些薯条洗干净”这样更不透明的指示可能会超出他们的想象,就像“你把这个苹果放回冰箱去拿巧克力吗?”这样的复杂的多步骤请求也是如此。
相比之下,受 Open AI 突破性 GPT-3 启发的新型大规模语言模型能够实现一些令人印象深刻的语言壮举。通过对从网络上抓取的大量书面材料进行训练,这些人工智能系统能够生成高质量的散文、令人信服的聊天机器人,并回答有关文本的复杂问题。
谷歌试图将两者结合在一个新项目中,旨在提高机器人理解我们的能力。通过将其PaLM 大型语言模型与Ever y day Robots (Alphabet 的“登月工厂”X 的衍生产品)制造的机器人相结合,他们构建了原型机械化管家,可以在房子周围执行人类的指令。
这些机器人在轮子上滚动,具有一个机械臂和一个装有传感器的头部,首先经过训练,由人类操作员通过一系列任务远程控制它们执行各种基本动作。
工程师随后创建了新的控制软件,该软件利用 PaLM 的语言技能,将人类的口头或书面命令翻译成实现它所需的行动。该软件利用了谷歌今年早些时候推出的一种称为“思维链提示”的方法,该方法使模型能够将问题分解为一系列中间步骤。
它使用它来将请求分成更小的子问题,它可以通过其预先训练的动作套件来解决这些问题。例如,“给我一杯可乐”可能会转换为“去厨房,打开冰箱,拿起可乐,然后回到客厅”。
机器人接受了人类用户的 101 条指令,能够在 84% 的时间内做出明智的反应,并且在 74% 的时间里将它们无缝地完成。
与使用不如 PaLM 强大语言模型的机器人相比,这分别代表了 14% 和 13% 的改进, 谷歌机器人技术负责人文森特·范霍克 (Vincent Vanhoucke) 在一篇博客文章中表示。由 PaLM 驱动的机器人执行复杂的多步骤请求的能力也提高了 26%。
不过,这仍然是一项正在进行中的工作, 据《连线》杂志报道,机器人仍然可以通过改变照明或将物体从熟悉的位置移出等简单的事情而被甩掉。目前尚不清楚语言理解问题是否真的比让机器人在不断变化的现实世界中成功执行任务更紧迫。
但研究人员希望通过为大型语言模型提供一种与物理世界交互的方式,这些好处也可以朝另一个方向发展。虽然目前尚不清楚该项目如何用于实际重新训练这些模型,但它可能是开始在现实世界中建立 AI 语言技能的一种方式。
因此,无论这一研究方向是否会导致机器人管家成为现实,它似乎都可能将机器人技术和人工智能领域推向新的强大功能。
图片来源:日常机器人