2020 年,OpenAI 的机器学习算法 GPT-3 让人们大吃一惊,在摄取了从互联网上抓取的数十亿个单词后,它开始吐出精心设计的句子。今年,GPT-3 的表亲 DALL-E 2 开始在网上引起类似的轰动,因为它开始制作宇航员骑马的超现实图像,并且最近还制作了那些不穿衣服的人的怪异、逼真的面孔。不存在。
现在,该公司表示,在观看了大约 70,000 小时的视频显示人们在 YouTube 上玩《我的世界》之后,其最新的人工智能已经学会了玩《我的世界》。
矿业学院
与在更简单的游戏“沙盒”版本中运行的众多先前的 Minecraft 算法相比,新的 AI 使用标准的键盘和鼠标命令在与人类相同的环境中运行。
在详细介绍这项工作的博客文章和预印本中,OpenAI 团队表示,该算法开箱即用,学习了基本技能,例如砍树、制作木板和制作工作台。他们还观察到它游泳、狩猎、烹饪和“跳柱”。
“据我们所知,没有任何已发表的作品在完整的、未经修改的人类行动空间中运作,其中包括拖放库存管理和物品制作,”作者在他们的论文中写道。
通过微调(即在更集中的数据集上训练模型),他们发现算法更可靠地执行了所有这些任务,但也开始通过制造木制和石制工具以及建造基本的避难所来提升其技术实力,探索村庄和袭击宝箱。
在通过强化学习进一步微调后,它学会了制作钻石镐——人类玩家需要大约 20 分钟和 24,000 次动作才能完成这项技能。
这是一个显着的结果。长期以来,人工智能一直在与 Minecraft 的开放式游戏作斗争。人工智能已经掌握的国际象棋和围棋等游戏具有明确的目标,并且可以衡量实现这些目标的进度。为了征服围棋,研究人员使用了强化学习,其中一种算法被赋予了一个目标,并因朝着该目标前进而获得奖励。另一方面,《我的世界》有许多可能的目标,进展不是线性的,深度强化学习算法通常都在旋转。
例如,在 2019 年面向 AI 开发者的 MineRL Minecraft 比赛中,660 份参赛作品中没有一个达到了比赛相对简单的开采钻石的目标。
值得注意的是,为了奖励创造力并表明将计算能力投入解决问题并不总是答案,MineRL 组织者对参与者进行了严格限制:允许他们使用一个 NVIDIA GPU 和 1,000 小时的录制游戏时间。尽管参赛者的表现令人钦佩,但 OpenAI 凭借更多数据和 720 个 NVIDIA GPU 取得的成绩似乎表明计算能力仍然有其优势。
人工智能变得狡猾
凭借其用于 Minecraft 的视频预训练 (VPT) 算法,OpenAI 回到了与 GPT-3 和 DALL-E 一起使用的方法:在大量人工创建内容的数据集上预训练算法。但算法的成功并不仅仅取决于计算能力或数据。在这么多视频上训练 Minecraft AI 以前是不切实际的。
原始视频片段对行为 AI 的用处不如对 GPT-3 和 DALL-E 等内容生成器有用。它显示了人们在做什么,但没有解释他们是如何做的。对于将视频链接到动作的算法,它需要标签。例如,显示玩家收集的物品的视频帧需要在用于打开物品栏的命令键“E”旁边标记为“物品栏”。
标记 70,000 小时视频中的每一帧将是……疯狂。因此,该团队支付了 Upwork 承包商来记录和标记基本的 Minecraft 技能。他们使用该视频的 2,000 小时来教授第二个算法如何标记 Minecraft 视频,该算法 IDM 对所有 70,000 小时的 YouTube 视频片段进行了注释。 (该团队表示,在标记键盘和鼠标命令时,IDM 的准确率超过 90%。)
这种人类训练数据标记算法以在线解锁行为数据集的方法也可以帮助人工智能学习其他技能。研究人员写道:“VPT 为让代理人通过观看互联网上的大量视频来学习行动铺平了道路。”除了 Minecraft,OpenAI 认为 VPT 可以带来新的现实世界应用程序,例如在提示时操作计算机的算法(例如,让您的笔记本电脑查找文档并将其通过电子邮件发送给您的老板)。
钻石不是永恒的
或许令 MineRL 竞赛组织者非常懊恼的是,结果似乎确实表明,计算能力和资源仍然在推动最先进的人工智能。
别管计算成本,OpenAI 表示,仅 Upwork 承包商就花费了 160,000 美元。虽然公平地说,手动标记整个数据集将花费数百万并且需要相当长的时间才能完成。虽然计算能力不可忽视,但模型实际上非常小。 VPT 的数亿个参数比 GPT-3 的数千亿个数量级要少。
尽管如此,寻找使用更少数据和计算的聪明新方法的动力是有效的。孩子可以通过观看一两个视频来学习 Minecraft 基础知识。今天的人工智能需要更多的东西来学习甚至简单的技能。 提高 AI 的效率是一项巨大而有价值的挑战。
无论如何,OpenAI这一次是有分享的心情的。研究人员表示,VPT 并非没有风险——他们严格控制对 GPT-3 和 DALL-E 等算法的访问,部分是为了限制滥用——但目前风险很小。他们已经开源了数据、环境和算法,并与 MineRL 合作。今年的参赛者可以免费使用、修改和微调最新的 Minecraft AI。
这一次他们很有可能会在开采钻石之后做得很好。