手机版
搜索
帮助
微博
微信

互联网快讯

首页科技快讯清华打造足球AI：首次实现同时控制10名球员完成比赛，胜率94.4%

清华打造足球AI：首次实现同时控制10名球员完成比赛，胜率94.4%

来源：晰数塔互联网快讯时间：2021年11月10日 13:57

“只见4号球员在队友的配合下迅速攻破后防，单刀直入，一脚射门，球，进了！”

观众朋友们大家好，您现在看到的是谷歌AI足球比赛的现场，场上身着黄色球衣的是来自清华大学的AI球员。

这届清华AI可不一般，他们在艰苦训练之下，不仅有个人能力突出的明星球员，也有世界上最强最紧密的团队合作。

在多项国际比赛中所向披靡，夺得冠军。

“Oh，现在7号接过队友传来的助攻，临门一脚，球又进了！”

言归正传，以上其实是清华大学在足球游戏中打造的一个强大的多智能体强化学习AI——TiKick。

在多项国际赛事中夺得冠军则是指，TiKick在单智能体控制和多智能体控制上均取得了SOTA性能，并且还是首次实现同时操控十个球员完成整个足球游戏。

这支强大的AI团队是如何训练出来的呢？

从单智能体策略中进化出的多智能体足球AI

在此之前，先简单了解一下训练所用的强化学习环境，也就是这个足球游戏：Google Research Football（GRF）。

它由谷歌于2019年发布，提供基于物理的3D足球模拟，支持所有主要的比赛规则，由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。

在由三千步组成的上下半场比赛中，智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。

在这样的足球游戏环境中进行强化学习难度有二：

一是因为多智能体环境，也就是一共10名球员（不含守门员）可供操作，算法需要在如此巨大的动作空间中搜索出合适的动作组合；

二是大家都知道足球比赛中一场进球数极少，算法因此很难频繁获得来自环境的奖励，训练难度也就大幅增大。

而清华大学此次的目标是控制多名球员完成比赛。

他们先从Kaggle在2020年举办的GRF世界锦标赛中，观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据，使用离线强化学习方法从中学习。

这场锦标赛只需控制场中的一名球员进行对战。

如何从单智能体数据集学习出多智能体策略呢？

直接学习WeKick中的单智能体操作并复制到每个球员身上显然不可取，因为这样大家都只会自顾自地去抢球往球门冲，根本就不会有团队配合。

又没有后场非活跃球员动作的数据，那怎么办？

他们在动作集内添加了第二十个动作：build-in，并赋予所有非活跃球员此标签(比赛中若选用build-in作为球员的动作，球员会根据内置规则采取行动)。

接着采用多智能体行为克隆(MABC)算法训练模型。

对于离线强化学习来说，最核心的思想是找出数据中质量较高的动作，并加强对这些动作的学习。

所以需在计算目标函数时赋予每个标签不同的权重，防止球员倾向于只采用某个动作作为行动。

这里的权重分配有两点考虑：

一是从数据集中挑选出进球数较多的比赛、只利用这些高质量的数据来训练，由于奖励较为密集，模型能够加速收敛并提高性能。

二是训练出Critic网络给所有动作打分，并利用其结果计算出优势函数，然后给予优势函数值大的动作较高的权重，反之给予较低的权重。

此处为了避免梯度爆炸与消失，对优势函数做出了适当的裁剪。

最终的分布式训练架构由一个Learner与多个Worker构成。

其中Learner负责学习并更新策略，而Worker负责搜集数据，它们通过gRPC进行数据、网络参数的交换与共享。

Worker可以利用多进程的方式同时与多个游戏环境进行交互，或是通过I/O同步读取离线数据。

这种并行化的执行方式，也就大幅提升了数据搜集的速度，从而提升训练速度 （5小时就能达到别的分布式训练算法两天才能达到的同等性能）。

另外，通过模块化设计，该框架还能在不修改任何代码的情况下，一键切换单节点调试模式和多节点分布式训练模式，大大降低算法实现和训练的难度。

94.4%的获胜率和场均3分的净胜分

在多智能体（GRF）游戏上的不同算法比较结果中，TiKick的最终算法（+AW）以最高的获胜率（94.4%）和最大的目标差异达到了最佳性能。

TrueSkill（机器学习中竞技类游戏的排名系统）得分也是第一。

TiKick与内置AI的对战分别达到了94.4%的胜率和场均3分的净胜分。

将TiKick与GRF学术场景中的基线算法进行横向比较后发现，TiKick在所有场景下都达到了最佳性能和最低的样本复杂度，且差距明显。

与其中的基线MAPPO相比还发现，在五个场景当中的四个场景都只需100万步就能达到最高分数。

最后，献上TiKick对战全场视频供大家欣赏：

作者介绍

一作黄世宇，清华大学博士生，研究方向为计算机视觉、强化学习和深度学习的交叉领域。曾在华为诺亚方舟实验室、腾讯AI、卡内基梅隆大学和商汤工作。

共同一作也是来自清华大学的陈文泽。

此外，作者还包括来自国防科技大学的Longfei Zhang、腾讯AI实验室的Li Ziyang 、Zhu Fengming 、Ye Deheng、以及清华大学的Chen Ting。

通讯作者为清华大学的朱军教授。

论文地址：https://arxiv.org/abs/2110.04507

项目地址：https://github.com/TARTRL/TiKick

参考链接：https://zhuanlan.zhihu.com/p/421572915

本文来自微信公众号“量子位”（ID:QbitAI），作者：丰色，36氪经授权发布。

相关推荐

清华打造足球AI：首次实现同时控制10名球员完成比赛，胜率94.4%
当AI碰上足球，DeepMind和利物浦队擦出了火花
 轮椅运动员用哪里撞线？盲人足球会越位吗？关于残奥会的疑问
 挖掘足球数据蓝海市场，「微队」为足球运动员研发 AI 智能足球鞋
 这届 AI 预测欧洲杯冠军，通通被打脸
 足球回归了，但球场空荡荡
 36氪首发 |「微队」获数千万人民币A1轮融资，持续投入AI智能足球鞋研发与海外供应链
 光头 or 足球？AI摄像机傻傻分不清楚
 一觉醒来法国队没了，足球比赛为啥总有黑马？
有的晋升「豪门」，有的惨遭关停，足球俱乐部到底是门什么生意？

网址: 清华打造足球AI：首次实现同时控制10名球员完成比赛，胜率94.4% http://www.xishuta.com/newsview53602.html

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

最新科技快讯

离奇盗刷！2年前卖掉的旧手机，居然在凌晨连刷4笔……

离奇盗刷！2年前卖掉的旧手机，居然在凌晨

重磅！折叠屏iPhone折痕难题攻克，2026年登场在即？

重磅！折叠屏iPhone折痕难题攻克，2

iPhone 17 Pro Max 外观 3800亿！阿里重大宣布网传绑扎钢筋的机器人十来万一台，比人工省晚点独家丨字节即梦考虑接入DeepSee 何小鹏再发全员信：告别 PPT，用 AI 雷军在小米园区路边喝咖啡，刷手机没停过，Scientist AI，能避免“人类生特斯拉FSD入华，中国智驾“正面迎战”

科技快讯热点排名

科技快讯热点

人类唯一的出路: 变成人工智能（五）

人类唯一的出路: 变

报告：抖音海外版下载量突破10亿大关挑战Facebook

报告：抖音海外版下载

苏宁易购2018年报:营收破2453亿线下门店超万家

苏宁易购2018年报

阿里巴巴钉钉宣布1月30日上线企业拜年红包

阿里巴巴钉钉宣布1月

即时专业知识