见过小瞪羚学会走路吗?一只小鹿,基本上是哺乳动物的长腿爸爸,爬起来,跌倒,站立,然后再次跌倒。最终,它站得足够长,可以将它牙签状的腿甩成一连串近乎跌倒的……咳咳,台阶。令人惊讶的是,在这个可爱的展示之后几分钟,小鹿就像一个老职业选手一样跳来跳去。
好吧,现在我们有了这个经典塞伦盖蒂场景的机器人版本。
这个案例中的小鹿是加州大学伯克利分校的一只机器狗。它同样是一个令人惊讶的快速学习者(相对于其他机器人类型)。该机器人也很特别,因为与您可能在网上看到的其他更炫酷的机器人不同,它使用人工智能自学如何走路。
从仰卧开始,双腿摆动,机器人在一小时内学会翻身、站立和行走。用一卷纸板再骚扰十分钟就足以教会它如何承受和从处理者的推挤中恢复过来。
这不是机器人第一次使用人工智能来学习走路。但是,虽然以前的机器人通过无数次模拟迭代中的反复试验来学习这项技能,但伯克利机器人完全是在现实世界中学习的。
在 arXiv 预印本服务器上发表的一篇论文中,研究人员——Danijar Hafner、Alejandro Escontrela 和 Philipp Wu——表示,将在模拟中学到的算法转移到现实世界并不简单。现实世界和模拟之间的小细节和差异可能会绊倒初出茅庐的机器人。另一方面,在现实世界中训练算法是不切实际的:它会花费太多时间和磨损。
例如,四年前,OpenAI 展示了一种可以操纵立方体的人工智能机械手。控制算法 Dactyl 在由 6,144 个 CPU 和 8 个 Nvidia V100 GPU 提供支持的模拟中需要 100 年的经验来完成这个相对简单的任务。自那以后,事情有了进展,但问题在很大程度上仍然存在。纯粹的强化学习算法需要太多的反复试验来学习技能,以便在现实世界中进行训练。简而言之,学习过程会在取得任何有意义的进展之前破坏研究人员和机器人。
伯克利团队着手使用一种名为 Dreamer 的算法来解决这个问题。通过构建所谓的“ 世界模型”,Dreamer 可以预测未来行动实现其目标的概率。随着经验的积累,其预测的准确性会提高。通过提前过滤掉不太成功的动作,世界模型可以让机器人更有效地找出什么是有效的。
研究人员写道:“从过去的经验中学习世界模型使机器人能够想象潜在行动的未来结果,减少在真实环境中学习成功行为所需的试错次数。” “通过预测未来的结果,世界模型允许仅在少量现实世界互动的情况下进行规划和行为学习。”
换句话说,世界模型可以将模拟中相当于数年的训练时间减少到不超过现实世界中尴尬的一小时。
这种方法也可能比机器狗具有更广泛的相关性。该团队还将 Dreamer 应用于拾放机械臂和轮式机器人。在这两种情况下,他们发现 Dreamer 让他们的机器人能够有效地学习相关技能,而无需模拟时间。更雄心勃勃的未来应用可能包括自动驾驶汽车。
当然,仍有挑战需要解决。尽管强化学习自动化了当今最先进机器人背后的一些复杂的手动编码,但它仍然需要工程师定义机器人的目标以及成功的要素——对于现实世界环境来说,这是一项既耗时又开放的练习。此外,尽管机器人在这里的团队实验中幸存下来,但对更高级技能的长期训练可能证明未来的机器人无法在没有损坏的情况下生存。研究人员表示,将模拟器训练与快速的现实世界学习相结合可能会很有成效。
尽管如此,这些结果还是将人工智能在机器人技术中推进了一步。俄勒冈州立大学机器人学教授乔纳森赫斯特告诉麻省理工学院技术评论,Dreamer 强化了“强化学习将成为机器人控制未来的基石工具”的观点。
图片来源: Danijar Hafner / YouTube