首页科技快讯 DeepMind星际争霸机器人领先人类多少？答：191年

DeepMind星际争霸机器人领先人类多少？答：191年

来源：晰数塔互联网快讯时间：2019年11月13日 13:19

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：DeepMind的AlphaStar AI机器人在《星际争霸2》中的表现达到了大师级别，AlphaStar在游戏中每一个种族的欧洲地区排名都是前0.15%。为了达到这种训练成果，AlphaStar与自己对战了200年（加速游戏），才达到目前的水平。鉴于《星际争霸2》在2010年发布，人类与机器之间的竞争存在191年的劣势。本文译自Medium，作者Dave Gershgorn，原标题为" DeepMind’s StarCraft Bot Has a 191-Year Head Start on Humanity"，希望对您有所启发。

根据近期发表在《自然》(Nature)杂志上的一项研究，Alphabet旗下的人工智能研究公司DeepMind已经构建了一个能够击败世界上绝大多数《星际争霸2》玩家的人工智能系统。

DeepMind团队于今年早些时候推出了AlphaStar，这是一款《星际争霸2》游戏机器人，在与顶级电子竞技专业人士的比赛中亮相。DeepMind的研究人员将其机器人AlphaStar引入了一系列盲注游戏，其对手根本不知道它是在与计算机对战。DeepMind部署了三个版本的AlphaStar，每个版本都以略微不同的方式学习这款游戏。AlphaStar的前两个版本足够好，达到了游戏的最高级别——特级大师。经过30场比赛后，AlphaStar在每一个种族的欧洲地区排名都是前0.15%。

《星际争霸2》是一款复杂的电子竞技游戏。每个玩家的任务是发展一支军队，建造建筑来提高他们的进攻、防御或产出能力，最终目标是探索周围环境，找到并摧毁他们的敌人。数以百计的独立单位必须被有效地组织起来，这就是为什么AlphaStar花了超过1.2亿场对弈，以及数百年的加速游戏时间，才征服了《星际争霸2》。

DeepMind星际争霸机器人领先人类多少？答：191年根据DeepMind的说法，AlphaStar在游戏中每采取一步行动都有10的26次方种可能的选择，即每一步都是在100,000,000,000,000,000,000,000,000个潜在选项中进行选择。

《星际争霸2》中的策略通常分为两类：微观和宏观。微观战略是指玩家如何操纵单个单元，而宏观战略则与玩家如何使用资源和升级军队等。对于AlphaStar来说，要想掌握这种游戏玩法，DeepMind不能仅仅依靠系统自身的学习能力，它还需要人类的帮助。

对于这些微观策略，研究人员对AlphaStar进行了训练，让它记录人类之前玩过的游戏，这些游戏是《星际争霸2》(StarCraft II)的开发商暴雪(Blizzard)发布给人工智能研究社区的。

DeepMind首席研究科学家戴维•西尔弗(David Silver)在早些时候的一次新闻发布会上表示：“(人类玩家数据)基本上提供了一个大致能反映人类行为的多样化策略基础。在这个基础上系统开始与自己对抗，并不断改变和发展这些策略，使它们变得越来越好。”

DeepMind星际争霸机器人领先人类多少？答：191年这意味着人工智能采取的游戏策略并不是随机产生的，它也也不需要学习像如何移动单元这样的基础知识。这就像一个人类玩家坐在一个老手玩家后面，看着他玩了大约50万次游戏。

今年早些时候，DeepMind首次展示了AlphaStar学习和改进人类微观战略的能力。在一场比赛中，AlphaStar将自己的单位分成小部分，在地图上多个地方包围对手，这一行动需要高度的精准性和协调性。

游戏解说员鹿特丹(RotterdaM)说：“如果我和人类玩家对弈，他们不会把(单位)缩小到这么小。”

为了让AlphaStar在游戏中掌控三种可玩的种族，DeepMind为人工智能系统创建了一个“联盟”，让它与自己竞争。AlphaStar玩了1.2亿场游戏，通过一个复杂的匹配系统，每个种族中目前最强大的机器人可以与“开拓者”机器人进行匹配，后者试图在AlphaStar喜欢的主导策略中找出漏洞。

通过这种方式，这项研究利用了最近流行的机器学习技巧——生成对抗网络(GANs)。其中一个网络试图生成一段数据，比如一幅图像，而另一个则试图判断这段数据是真实的还是人工智能生成的。这两个网络来回“争论”，直到生成的数据非常接近真实相机拍摄的图像。

《星际争霸2》之所以如此难以掌握，其中一个原因就是它是一款信息不不对称的游戏。这款游戏与围棋或国际象棋不同，玩家只能看到他们的单位探索过的部分地图，他们不知道对手在使用什么策略。在这方面，它很像扑克。

研究人员说，在将这项技术应用到现实中的过程中，还存在一个问题，那就是训练AlphaStar需要多少数据。除了人类提供的数据，AlphaStar还需要与自己对战200年，才能达到目前的水平。鉴于《星际争霸2》在2010年发布，人类与机器之间的竞争存在191年的劣势。

译者：Jane

推荐阅读：同事总是指使你做事情，如何友善地进行反击？

推荐阅读：外国小哥分享：我是如何靠“副业”月入过万的？

DeepMind星际争霸机器人领先人类多少？答：191年

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

DeepMind星际争霸机器人领先人类多少？答：191年

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包