机器人需要像我们一样对世界及其规则进行内部表示。
如果您还不熟悉“世界模型”的概念,那么 2025 年初的一系列活动表明它可能很快就会成为一个众所周知的术语。
Nvidia 首席执行官黄仁勋 (Jensen Huang) 在 CES 上的主题演讲中宣布了一个新平台 Cosmos,用于他们所谓的“世界基础模型”。 Cosmos 是一种生成人工智能工具,可以生成类似虚拟世界的视频。第二天,谷歌的 DeepMind 在一个由前 OpenAI 工程师领导的项目中也展现了类似的雄心。这一切发生在几个月前,一家令人着迷的初创公司World Labs在短短四个月内完成了同样的事情,获得了独角兽地位(一家估值 10 亿美元或以上的初创公司)。
要了解什么是世界模型,值得指出的是,我们构建和部署无人机、机器人和自动驾驶汽车等智能机器的方式正处于拐点。工程师不再对行为进行明确的编程,而是转向 3D 计算机模拟和人工智能,让机器自学。这意味着物理上精确的虚拟世界正在成为训练机器感知、理解和导航三维空间的重要数据源。
世界模型对于训练机器人所需的虚拟世界模拟器来说,就像大型语言模型对于 ChatGPT 等系统一样。因此,世界模型是一种生成式人工智能工具,能够生成 3D 环境并模拟虚拟世界。就像 ChatGPT 是用直观的聊天界面构建的一样,世界模型界面可能允许更多的人,甚至那些没有技术游戏开发技能的人,构建 3D 虚拟世界。它们还可以帮助机器人更好地理解、规划和导航周围的环境。
需要明确的是,大多数早期的世界模型(包括 Nvidia 宣布的模型)都会以视频格式生成空间训练数据。然而,已经有一些模型能够产生完全沉浸式的场景。一家名为Odyssey的初创公司制作的一款工具,使用高斯泼溅来创建可以加载到 Unreal Engine 和 Blender 等 3D 软件工具中的场景。另一家初创公司 Decart 将他们的世界模型演示为类似于 Minecraft 的游戏的可玩版本。 DeepMind 也同样走上了视频游戏路线。
所有这些都反映出计算机图形学工作方式在基础层面发生变化的潜力。 2023年,黄仁勋预测,未来“每一个像素都将被生成,不是渲染,而是生成”。他最近采取了更细致的观点,表示传统渲染系统不太可能完全消失。然而,很明显,预测要显示哪些像素的生成式人工智能可能很快就会蚕食游戏引擎目前所做的工作。
对机器人技术的影响可能是巨大的。
Nvidia 目前正在努力建立“物理 AI”品牌标签,作为智能系统的术语,为仓库 AMR 、库存无人机、人形机器人、自动驾驶汽车、无人拖拉机、 送货机器人等提供动力。为了使这些系统能够在现实世界中有效地执行工作,特别是在有人类的环境中,它们必须进行物理精确模拟的训练。世界模型有可能产生任何可以想象到的综合训练场景。
这一想法是公司阐明人工智能前进道路方式转变的背后原因,而世界实验室也许是对此的最佳表达。 World Labs 由因其在计算机视觉领域的基础工作而被称为人工智能教母的李飞飞创立,将自己定义为一家空间智能公司。在他们看来,要实现真正的通用智能,人工智能需要具备“对 3D 空间和时间中的物体、地点和交互进行推理”的具体能力。与竞争对手一样,他们正在寻求建立能够将人工智能转移到三维空间的基础模型。
未来,这些可能会演变成对世界及其规则的内部的、类人的表示。这可能允许人工智能预测他们的行为将如何影响周围的环境,并规划合理的方法来完成任务。例如,人工智能可能会了解到,如果你用力挤压鸡蛋,它就会破裂。然而,背景很重要。如果您的目标是将其放入纸盒中,请放轻松,但如果您要准备煎蛋卷,请挤走。
虽然世界模型可能正在经历一段时期,但现在还为时过早,而且短期内仍然存在很大的局限性。即使与当今的人工智能相比,训练和运行世界模型也需要大量的计算能力。此外,模型还不能可靠地与现实世界的规则保持一致,并且像所有生成式人工智能一样,它们将受到自身训练数据中的偏差的影响。
正如TechCrunch的凯尔·威格斯 (Kyle Wiggers)所写,“主要根据欧洲城市晴朗天气视频训练的世界模型可能难以理解或描绘下雪条件下的韩国城市。”由于这些原因,游戏和物理引擎等传统模拟工具仍将在相当长的时间内用于渲染机器人的训练场景。 Meta 的人工智能负责人 Yann LeCun 在 2022 年深入撰写了有关这一概念的文章,他仍然认为先进的世界模型(就像我们头脑中的模型一样)将需要更长的时间来开发。
尽管如此,对于机器人专家来说,这仍然是一个激动人心的时刻。正如 ChatGPT 标志着人工智能进入主流意识的拐点一样;机器人、无人机和人工智能系统可能正接近类似的突破时刻。为了实现这一目标,物理上精确的 3D 环境将成为这些系统学习和成熟的训练场。
早期的世界模型可能使开发人员比以往任何时候都更容易生成开启空间智能机器时代所需的无数训练场景。
机器人技术的 ChatGPT 时刻即将到来。人工智能世界模型可以帮助实现这一目标。首先出现在SingularityHub上。