人工智能讨厌不确定性。然而,为了驾驭我们不可预测的世界,它需要学会在不完美的信息下做出选择——就像我们每天所做的那样。
DeepMind 刚刚尝试解决这个难题。诀窍是将博弈论交织到松散地基于人脑的算法策略中,称为深度强化学习。结果,DeepNash 在名为 Stratego 的高度战略棋盘游戏中击败了人类专家。对于 AI 来说,这是一款出了名的困难游戏,Stratego 需要人类智慧的多种优势:长期思考、虚张声势和制定战略,所有这些都不知道对手在棋盘上的棋子。
“与国际象棋和围棋不同,Stratego 是一种信息不完全的游戏:玩家无法直接观察对手棋子的身份,”DeepMind 在一篇博文中写道。借助 DeepNash,“玩游戏的人工智能 (AI) 系统已经进入了一个新的领域。”
这不全是乐趣和游戏。可以轻松操纵我们世界的随机性并相应地调整其“行为”的人工智能系统有一天可以用有限的信息处理现实世界的问题,例如优化交通流量以减少旅行时间和(希望)像自动驾驶一样消除路怒症汽车变得越来越多。
“如果你正在制造一辆自动驾驶汽车,你不想假设路上的所有其他司机都是完全理性的,并且会做出最佳行为,”Meta AI 的 Noam Brown 博士说,他不是t 参与研究。
DeepNash 的胜利紧随本月另一项 AI 进步之后, 算法学会了玩外交——一种需要谈判和合作才能获胜的游戏。随着 AI 获得更灵活的推理,变得更加普遍,并学会驾驭社交情境,它也可能激发对我们大脑神经过程和认知的洞察力。
认识战略家
就复杂性而言,与国际象棋、围棋或扑克相比,Stratego 是完全不同的野兽——所有这些游戏都是 AI 以前掌握的。
游戏本质上就是夺旗。每边有 40 个棋子,可以放在棋盘上的任何位置。每件作品都有不同的名称和数字等级,例如“元帅”、“将军”、“侦察兵”或“间谍”。排名较高的棋子可以捕获较低的棋子。目标是消灭反对派并夺取他们的旗帜。
Stratego 对于 AI 来说尤其具有挑战性,因为玩家在初始设置和整个游戏过程中都看不到对手棋子的位置。与国际象棋或围棋不同,每个棋子和动作都在视野中,Stratego 是一种信息有限的游戏。作者解释说,玩家在做出决定时必须“平衡所有可能的结果”。
这种不确定性是 Stratego 多年来一直困扰 AI 的部分原因。即使是最成功的游戏算法,如 AlphaGo 和AlphaZero ,也依赖于完整的信息。相比之下,Stratego 有点像德州扑克,这是 DeepMind 之前用算法征服的一种扑克游戏。但这种策略对 Stratego 来说是行不通的,主要是因为游戏的长度,与扑克不同,它通常包含数百步。
潜在游戏的数量令人兴奋。国际象棋有一个起始位置。 Stratego 有超过 10 66 个可能的起始位置——远远超过宇宙中所有的星星. Stratego 的游戏树,即游戏中所有可能走法的总和,总计达到惊人的 10 535步。
“Stratego 中可能结果数量的绝对复杂性意味着在完美信息游戏中表现良好的算法,甚至那些适用于扑克的算法,都不起作用,”DeepMind 的研究作者 Julien Perolat 博士说。他说,挑战是“让我们兴奋的事情”。
美丽的心灵
Stratego 的复杂性意味着搜索游戏动作的常用策略是不可能的。被称为蒙特卡洛树搜索,一种“基于人工智能的游戏的坚定方法”,该技术绘制出可能导致胜利的潜在路线 – 就像树上的树枝一样。
相反,DeepNash 的魔力来自电影《美丽心灵》中描绘的数学家约翰纳什。作为博弈论的先驱,纳什因其在纳什均衡方面的工作而获得诺贝尔奖。简而言之,在每场比赛中,玩家都可以挖掘出一套所有人都遵循的策略,这样任何一个玩家都不会因为改变自己的策略而获得任何好处。在 Statego 中,这带来了一个零和游戏:玩家获得的任何收益都会导致对手的损失。
由于 Stratego 的复杂性,DeepNash 对其算法采用了无模型方法。在这里,人工智能并没有试图精确地模拟对手的行为。就像婴儿一样,它有一张白纸可供学习。这种设置在游戏的早期阶段特别有用,“当 DeepNash 对其对手的棋子知之甚少时”,使得预测“即使不是不可能,也很困难,”作者说。
该团队随后使用深度强化学习为 DeepNash 提供动力,目标是找到游戏的纳什均衡。这是天作之合:强化学习有助于在游戏的每一步决定最佳下一步行动,而 DeepNash 则提供整体学习策略。为了评估该系统,该团队还设计了一名“导师”,利用游戏中的知识来过滤掉在现实世界中可能没有意义的明显错误。
熟能生巧
作为学习的第一步,DeepNash 在 55 亿场比赛中与自己对弈,这是人工智能训练中被称为自我对弈的一种流行方法。
当一方获胜时,AI 获得奖励,其当前的人工神经网络参数得到加强。另一方——同一个人工智能——受到惩罚以削弱其神经网络强度。这就像在镜子前为自己排练演讲。随着时间的推移,您会发现错误并表现得更好。在 DeepNash 的例子中,它趋向于最佳游戏玩法的纳什均衡。
实际表现如何?
该团队针对其他精英 Stratego 机器人测试了该算法,其中一些赢得了 Computer Stratego 世界锦标赛。 DeepNash 以大约 97% 的胜率击败了对手。当与 Gravon(一个面向人类玩家的在线平台)对抗时,DeepNash 击败了它的人类对手。在今年 4 月与 Gravon 的球员进行了两周多的比赛之后,DeepNash 在自 2002 年以来的所有排名赛中升至第三名。
它表明,DeepNash 无需将人类游戏数据引导至 AI 即可达到人类水平的表现并击败它。
人工智能还在初始设置和游戏过程中表现出一些有趣的行为。例如,DeepNash 并没有确定一个特定的“优化”起始位置,而是不断地移动棋子以防止其对手随着时间的推移发现模式。在游戏过程中,AI 在看似毫无意义的动作(例如牺牲高等级棋子)之间跳来跳去,以在反击时找到对手更高等级的棋子。
DeepNash 也可以虚张声势。在一场比赛中,AI 将低阶棋子当作高阶棋子移动,引诱人类对手用其高阶上校追逐棋子。 AI 牺牲了棋子,但反过来又引诱对手宝贵的间谍棋子进入伏击。
虽然 DeepNash 是为 Stratego 开发的,但它可以推广到现实世界。核心方法可能会指导人工智能利用有限的信息更好地应对我们不可预测的未来——从人群和交通控制到分析市场动荡。
该团队表示:“在创建一个在面对不确定性时仍然健壮的通用人工智能系统,我们希望将人工智能的问题解决能力进一步带入我们天生不可预测的世界。”
图片来源: Derek Bruff / Flickr