DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

2020-06-06    收藏873
点击次数:890

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

半年前, OpenAI Five  在  Ti8 赛事中与人类职业选手大战 DOTA  的盛况还历历在目,年前,DeepMind AI  也要在游戏界搞大事情了。

这次,AI  要挑战的是暴雪的经典游戏 —— 星海争霸 II。

AI 即将进攻星海争霸 II

DeepMind 23 日 在 Twitter  上公开发布了「战帖」,表示要在两天后当地时间週四下午 6  点,也就是台湾时间週五凌晨 2  点,直播打星海 II。

这不是一次简单的直播,更像是一场特别的「发布会」,DeepMind  想要通过这场比赛,公开展示 AI「学到的新战术」。

本次的将要出战的 AI  是由 DeepMind  和暴雪联合培养的,经过了「特别的训练方式」,似乎对这次比赛的胜利很有信心。

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

比赛将会在星海的 Twitch  频道和 DeepMind  的 Youtube  频道同步直播,先给出网址,星海 II  的玩家们,你们準备好对抗 AI  了吗?

以餵食「数十万」游戏画面不断成长

暴雪在最近的 BlizzCon  上,总结了自己 2018  年的工作,并相当低调地发布了「与 DeepMind  合作正在继续  」的更新:

DeepMind  一直在努力训练他们的 AI  更好地了解星海争霸 II。一旦它开始掌握游戏的基本规则,它开始展示「有趣」的行为,例如立即冲向对手。目前,即时在「疯狂」难度下的星海争霸 II,AI  的成功率已经可以达到 50%!

而且它还在学习:「在向它提供了更多真实玩家的游戏录影之后,AI  开始执行标準的宏观策略,以及防御诸如加农炮冲击等激进战术。」

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

经过三个月的训练,显然这只 AI  取得了不错的进展,而 DeepMind  和暴雪都认为现在已经到了将其公诸于众的时候。

暴雪 23 日也发布声明称,这场比赛将提醒我们,所有 AI  都在以几何速度学习。「星海争霸游戏已经成为人工智慧社区的「巨大挑战」,因为它们是针对诸如规划,处理不确定性和空间推理等问题的进展基準的完美环境。」 

其实早在 2016  年,DeepMind  已经立下 Flag  要教会 AI  玩儿星海争霸 II,也已经有包括 facebook、阿里巴巴等不少科技公司或者研究机构开拓过「星海」这片竞技场,但 DeepMind  这样专治人类各种不服的公司正式宣布与暴雪合作,还是让一票星海玩家大呼「热血」。  暴雪承诺将持续发布从「星海争霸 II」天梯中收集的数十万个匿名游戏影片,这会将训练变得更加容易。 

2017  年 7  月份,DeepMind  已经官宣正式与暴雪娱乐合作,共同开发可以在星海争霸 II  中与人类玩家对抗的 AI,并且发布了 SC2LE,一个旨在加速即时战略游戏当中 AI  应用的工具集。

这次训练的 AI  所採用的数据,很可能是暴雪承诺过的「星海争霸 II」天梯中收集的数十万个匿名录影。有了这些数据,相信 AI  的能力也会有突飞猛进的提升。

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

超过 10 万种配置可能,Alpha Go 也应付不来

不要以为有了优质数据就能训练出来超强的 AI。其实这并不是一项轻鬆的任务,因为游戏的複杂性和更多可能性也让 AI  战胜人类要远比在棋盘游戏上複杂。

星海争霸和星海争霸 II  是史上最大和最成功的游戏之一,它们见证了许多玩家从青葱岁月到为人父母的 20  多年。其原始游戏早已被 AI  和 ML  研究人员使用,并在每年的 AIIDE  机器人大赛中进行角逐。

使用 AI  在星海争霸中对战人类玩家会比围棋艰难得多,对于 AI  来说,最大的难点在于,每一场对决都存在大量可能的方式。

据估计,每场对决有 101,685  种可能的配置,为了给大家一个直观感受,Alpha Go 的配置层是 10,170。

此外,不同于棋类游戏的轮流依次进行走步,并且拥有决策的时间,在星海争霸中,玩家会同时出招,且不能看到对方玩家的状态,也就是说,所有决定需要在「不完整信息」的情况下做出。所有这些都意味着,你不能仅靠逻辑和一些步骤找到赢得对决的最优方式,玩家更需要的是策略和直觉。

採用 PySC2 模型训练 ,应付多种可能性

星海争霸 II  的玩家在同一时间可能有 300  多种基本行动可以选择,因此策略集及策略选择也对 AI  构成了巨大的挑战。与此形成鲜明对比的是雅达利游戏,大概只有 10  种选择(例如,下,左,右等)。除此之外,星海争霸中的很多操作是分级的,可以进行修改和扩充,其中很多都需要操作萤幕上的一个点进行。即使一个小 84X84  的屏幕也会产生大约 1  亿种可能的行动选择。

之前发布的 PySC2  可以帮助研究人员利用暴雪自己的工具来解决这些挑战,并且构建自己的任务和模型。

PySC2  环境提供了一个灵活的,易于使用的 RL  代理游戏界面。在最初的版本中,游戏被分解为「特徵层」,其中的游戏元素,如单元类型、单位的健康度和地图的可见性彼此隔离,同时保留游戏的核心视觉和空间元素。

之前发布的 PySC2  还包括一系列的迷你游戏,一种将游戏分解成小模块的技术,可以用来测试特定任务的代理,比如移动视角、收集矿物碎片或选择单位。DeepMind  希望研究人员可以测试他们的技术,并且开发新的迷你游戏,以供其他研究人员进行使用和评估。

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

起于 Alpha Go,行至 OpenAI

1997  年,国际象棋 AI  第一次打败顶尖的人类;2006  年,人类最后一次打败顶尖的国际象棋 AI。

在 2016  年年底,一个名为「Master」的神秘在线围棋玩家出现在了热门的亚洲游戏服务器 Tygem  上。在接下来的几天里,这个神秘的玩家横扫世界範围内的许多一流玩家。

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸

2017  年 5  月,AlphaGo「Master」在对战世界排名最高的围棋选手柯洁中屡屡得分。在三场比赛中,人工智慧稳操胜券。

2017  年 12  月,DeepMind  发布了一个更新版本的系统。这款名为「AlphaZero」的新人工智慧可以在短短几个小时内掌握各种游戏。经过仅仅 8  个小时的自我训练,这个系统不仅能打败 AlphaGo Zero  的早期版本,而且还可以成为象棋大师和将棋(shogi,又称日本象棋,一种流行于日本的棋盘游戏)的冠军。

在拿到棋牌类的王者之后,人工智慧向更複杂的实时对战游戏领域进发。

2018  年,OpenAI Five  与 DOTA2  半职业玩家团队交手,比赛结果是 2:1,人类输掉了比赛。在 2017  年,比较原始版本的 AI  在 1v1  战斗中就击败了人类职业玩家 Dendi。

2018  年 8  月份,人工智慧在 Ti8  赛事中与职业玩家交手,比赛结果是两场比赛,人类玩家守住了 DOTA  这一高地。其中,第二场与中国玩家交手,在第 45  分钟的时候,AI  直接认输。

2018  年 9  月,腾讯 AI Lab  发布论文称,他们构建的 AI  首次在完整的虫族 VS  虫族比赛中击败了星海 2  的内置机器人 Bot。

AI 血洗电竞圈

OpenAI Five 止步 T18!大败顶尖人类战队,「规则改变」成主因

OpenAI 用《Dota 2》示範血虐人类:砍瓜切菜偷推塔,职业选手被当菜打

马斯克 OpenAI 打 Dota 2:玩爆平民玩家后,世界赛专业电竞手也是同样下场?

相关文章  RELEVANT ARTICLES