谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是,游戏虽然缺乏明显的商业应用,但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。

与此前开发的游戏系统不同,DeepMind 创建了一个名为 Player of Games 的系统,是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的 AI 算法。与 DeepMind 之前开发的其他游戏系统,如国际象棋冠军AlphaZero和星际争霸 II 的 AlphaStar 不同,博弈者可以在完全信息游戏(例如中国围棋和国际象棋)和不完全信息游戏(例如,扑克)中表现出色。

无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像 Player of Games 这样的系统,能推断其他人的目标和动机,使其与他人成功合作。 

 

1、不完全对完全

 不完全信息游戏的信息在游戏过程中对玩家是隐藏的,相比之下,完全信息游戏在开始时会展示所有的信息。

要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。

DeepMind 称,Player of Games是首个“通用且健全的搜索算法”,在完全和不完全的信息游戏中都实现了强大的性能。

Player of Games 有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,就没有那么厉害。系统需要考虑每个玩家在游戏中的所有可能观点。虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可以有很多这样的视角,例如,扑克大约有 2,000 个。此外,与 DeepMind AlphaZero 的继任者 MuZero 不同,Player of Games 也需要了解它所玩的游戏规则,而 MuZero 可以即时掌握完全信息游戏的规则。

在其研究中,DeepMind 在国际象棋、围棋、德州扑克和战略棋盘游戏《苏格兰场》上的表现,评估了 Player of Games 使用谷歌 TPUv4 加速芯片组进行训练。对于围棋,它在 AlphaZero 和 Player of Games 之间设置了 200 场比赛,而对于国际象棋,DeepMind 则让 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在内的顶级系统进行了较量。Player of Games 的德州扑克比赛使用公开可用的 Slumbot 进行,该算法还与 Joseph Antonius Maria Nijssen 开发的 PimBot 进行了苏格兰场的比赛。DeepMind 的合著称为“PimBot”。

 

在国际象棋和围棋中,Player of Games 被证明在某些配置中比 Stockfish 和 Pachi 更强大,并且它在对抗最强的 AlphaZero 系统时赢得了 0.5% 的比赛。尽管在对阵 AlphaZero 的比赛中损失惨重,但 DeepMind 认为 Player of Games 的表现达到了“顶级人类业余爱好者”的水平,甚至可能达到了职业水平。

结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。

同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它。 

 

2、未来

Schmid 相信 Player of Games 是向真正通用的游戏系统迈出的一大步。

实验的总体趋势是,随着计算资源增加,该算法的性能会更好,Schmid 预计这种方法将在可预见的范围内扩展未来。

“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。”他谈道,“让这些算法更加通用是一项令人兴奋的研究。”

参考链接:https://venturebeat.com/2021/12/08/deepmind-makes-bet-on-ai-system-that-can-play-poker-chess-go-and-more/