尽管取得了令人瞩目的进步,但今天的人工智能模型是非常低效的学习者,需要花费大量的时间和数据来解决人类几乎瞬间就能解决的问题。一种新方法可以通过让 AI 在尝试挑战之前阅读说明手册来大大加快速度。
创建可以解决各种问题的 AI 的最有前途的方法之一是强化学习,它涉及设定目标并奖励 AI 为实现该目标而采取的行动。这是大多数人工智能游戏重大突破背后的方法,例如 DeepMind 的 AlphaGo。
尽管这项技术很强大,但它本质上依赖于反复试验来找到有效的策略。这意味着这些算法可以花费相当于几年的时间在视频和棋盘游戏中犯错误,直到他们找到一个获胜的公式。
由于现代计算机的强大功能,这可以在人类所需时间的一小部分内完成。但这种糟糕的“样本效率”意味着研究人员需要使用大量昂贵的专用人工智能芯片,这限制了谁可以解决这些问题。它还严重限制了强化学习在现实世界中的应用,在这些情况下进行数百万次运行根本不可行。
现在,卡内基梅隆大学的一个团队找到了一种方法,通过将强化学习算法与可以阅读说明手册的语言模型相结合,可以帮助它们更快地学习。他们的方法(在arXiv上发布的预印本中有所概述)教会 AI 玩具有挑战性的 Atari 视频游戏,其速度比 DeepMind 开发的最先进模型快数千倍。
“我们的工作首次证明了全自动强化学习框架有可能从广泛研究的游戏的说明手册中受益,”领导该研究的 Yue Wu 说。 “我们一直在对 Minecraft 等其他更复杂的游戏进行实验,并取得了可喜的成果。我们相信我们的方法应该适用于更复杂的问题。”
Atari 视频游戏已成为研究强化学习的流行基准,这要归功于受控环境以及游戏具有评分系统这一事实,可以作为对算法的奖励。不过,为了让他们的 AI 抢先一步,研究人员想给它一些额外的指导。
首先,他们训练了一个语言模型,从游戏的官方说明手册中提取和总结关键信息。然后使用此信息向大小和功能类似于 GPT-3 的预训练语言模型提出有关游戏的问题。例如,在 PacMan 游戏中,这可能是“如果你想赢得比赛,你应该打鬼吗?”,答案是否定的。
然后,这些答案将用于为强化算法创造额外的奖励,超出游戏的内置评分系统。在吃豆人的例子中,击中幽灵现在会受到 -5 分的惩罚。然后将这些额外的奖励输入到完善的强化学习算法中,以帮助它更快地学习游戏。
研究人员在Skiing 6000上测试了他们的方法,这是 AI 最难掌握的 Atari 游戏之一。 2D 游戏要求玩家激流回旋下山,在两极之间航行并避开障碍物。这听起来很容易,但领先的人工智能必须运行 800 亿帧游戏才能达到与人类相当的性能。
相比之下,新方法只需要 1300 万帧就可以玩游戏,尽管它只能达到领先技术一半左右的分数。这意味着它甚至不如普通人,但它比其他几种根本无法掌握游戏要领的领先强化学习方法要好得多。这包括新人工智能所依赖的成熟算法。
研究人员表示,他们已经开始在 Minecraft 等更复杂的 3D 游戏上测试他们的方法,并取得了有希望的早期结果。但强化学习长期以来一直在努力实现从计算机可以访问完整世界模型的视频游戏到物理现实的混乱不确定性的飞跃。
吴说,他希望快速提高物体检测和定位能力能够很快使自动驾驶或家庭自动化等应用触手可及。无论哪种方式,结果都表明 AI 语言模型的快速改进可以成为该领域其他领域取得进展的催化剂。