DeepMind星际争霸机器人领先人类多少?答:191年
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:DeepMind的AlphaStar AI机器人在《星际争霸2》中的表现达到了大师级别,AlphaStar在游戏中每一个种族的欧洲地区排名都是前0.15%。为了达到这种训练成果,AlphaStar与自己对战了200年(加速游戏),才达到目前的水平。鉴于《星际争霸2》在2010年发布,人类与机器之间的竞争存在191年的劣势。本文译自Medium,作者Dave Gershgorn,原标题为" DeepMind’s StarCraft Bot Has a 191-Year Head Start on Humanity",希望对您有所启发。
根据近期发表在《自然》(Nature)杂志上的一项研究,Alphabet旗下的人工智能研究公司DeepMind已经构建了一个能够击败世界上绝大多数《星际争霸2》玩家的人工智能系统。
DeepMind团队于今年早些时候推出了AlphaStar,这是一款《星际争霸2》游戏机器人,在与顶级电子竞技专业人士的比赛中亮相。DeepMind的研究人员将其机器人AlphaStar引入了一系列盲注游戏,其对手根本不知道它是在与计算机对战。DeepMind部署了三个版本的AlphaStar,每个版本都以略微不同的方式学习这款游戏。AlphaStar的前两个版本足够好,达到了游戏的最高级别——特级大师。经过30场比赛后,AlphaStar在每一个种族的欧洲地区排名都是前0.15%。
《星际争霸2》是一款复杂的电子竞技游戏。每个玩家的任务是发展一支军队,建造建筑来提高他们的进攻、防御或产出能力,最终目标是探索周围环境,找到并摧毁他们的敌人。数以百计的独立单位必须被有效地组织起来,这就是为什么AlphaStar花了超过1.2亿场对弈,以及数百年的加速游戏时间,才征服了《星际争霸2》。
根据DeepMind的说法,AlphaStar在游戏中每采取一步行动都有10的26次方种可能的选择,即每一步都是在100,000,000,000,000,000,000,000,000个潜在选项中进行选择。
《星际争霸2》中的策略通常分为两类:微观和宏观。微观战略是指玩家如何操纵单个单元,而宏观战略则与玩家如何使用资源和升级军队等。对于AlphaStar来说,要想掌握这种游戏玩法,DeepMind不能仅仅依靠系统自身的学习能力,它还需要人类的帮助。
对于这些微观策略,研究人员对AlphaStar进行了训练,让它记录人类之前玩过的游戏,这些游戏是《星际争霸2》(StarCraft II)的开发商暴雪(Blizzard)发布给人工智能研究社区的。
DeepMind首席研究科学家戴维•西尔弗(David Silver)在早些时候的一次新闻发布会上表示:“(人类玩家数据)基本上提供了一个大致能反映人类行为的多样化策略基础。在这个基础上系统开始与自己对抗,并不断改变和发展这些策略,使它们变得越来越好。”
这意味着人工智能采取的游戏策略并不是随机产生的,它也也不需要学习像如何移动单元这样的基础知识。这就像一个人类玩家坐在一个老手玩家后面,看着他玩了大约50万次游戏。
今年早些时候,DeepMind首次展示了AlphaStar学习和改进人类微观战略的能力。在一场比赛中,AlphaStar将自己的单位分成小部分,在地图上多个地方包围对手,这一行动需要高度的精准性和协调性。
游戏解说员鹿特丹(RotterdaM)说:“如果我和人类玩家对弈,他们不会把(单位)缩小到这么小。”
为了让AlphaStar在游戏中掌控三种可玩的种族,DeepMind为人工智能系统创建了一个“联盟”,让它与自己竞争。AlphaStar玩了1.2亿场游戏,通过一个复杂的匹配系统,每个种族中目前最强大的机器人可以与“开拓者”机器人进行匹配,后者试图在AlphaStar喜欢的主导策略中找出漏洞。
通过这种方式,这项研究利用了最近流行的机器学习技巧——生成对抗网络(GANs)。其中一个网络试图生成一段数据,比如一幅图像,而另一个则试图判断这段数据是真实的还是人工智能生成的。这两个网络来回“争论”,直到生成的数据非常接近真实相机拍摄的图像。
《星际争霸2》之所以如此难以掌握,其中一个原因就是它是一款信息不不对称的游戏。这款游戏与围棋或国际象棋不同,玩家只能看到他们的单位探索过的部分地图,他们不知道对手在使用什么策略。在这方面,它很像扑克。
研究人员说,在将这项技术应用到现实中的过程中,还存在一个问题,那就是训练AlphaStar需要多少数据。除了人类提供的数据,AlphaStar还需要与自己对战200年,才能达到目前的水平。鉴于《星际争霸2》在2010年发布,人类与机器之间的竞争存在191年的劣势。
译者:Jane
推荐阅读:同事总是指使你做事情,如何友善地进行反击?
推荐阅读:外国小哥分享:我是如何靠“副业”月入过万的?
相关推荐
DeepMind星际争霸机器人领先人类多少?答:191年
DeepMind官博详解AI打星际争霸:靠战略水平 而非手速
谷歌AI在星际争霸II中10:1击败职业玩家
“击败星际争霸II职业玩家”的AlphaStar是在作弊?
DeepMind和暴雪发出神秘预告,终极人机大战要来了?
碾压99.8%人类对手,三种族都达宗师级,星际AI登上Nature,技术首次完整披露
谷歌与DeepMind的矛盾:或爆发于利益,终结于权属
DeepMind新成果:让AI做了200万道数学题,结果堪忧
完胜星际顶级人类职业选手,AI“星际指挥官”究竟是何来历?
控制AI之战:揭秘谷歌与DeepMind的爱恨情仇
网址: DeepMind星际争霸机器人领先人类多少?答:191年 http://www.xishuta.com/newsview12807.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94951
- 2人类唯一的出路:变成人工智能 19220
- 3报告:抖音海外版下载量突破1 18936
- 4移动办公如何高效?谷歌研究了 18463
- 5人类唯一的出路: 变成人工智 18321
- 62023年起,银行存取款迎来 10125
- 7网传比亚迪一员工泄露华为机密 8179
- 8顶风作案?金山WPS被指套娃 7096
- 9大数据杀熟往返套票比单程购买 7045
- 10五一来了,大数据杀熟又想来, 6834