NeurIPS多智能体强化学习竞赛夺冠的背后,是决策智能公司「启元世界」
作者:孟韬
36氪最近了解到的「启元世界」是一家以认知决策技术为核心的人工智能公司。
在2018年12月举行的人工智能顶级大会NeurIPS上,由谷歌大脑、Facebook、牛津大学及在游戏AI界久负盛名的纽约大学等机构联合举办了多智能体竞赛-炸弹人团队赛(The NeurIPS 2018 Pommerman Competition)中,来自「启元世界」的彭鹏博士、中科院计算所庞亮博士和北师大的袁钰峰组成的赛队,最终在与24支世界一流队伍的角逐中,基于“启元决策智能平台”训练的Navocado双智能体能力稳定提升,夺得了Learning组冠军。
在2018年4月15日由北京大学承办的第42届ACM-ICPC全球总决赛上,“启元世界”发布了基于星际争霸II的人机协作挑战赛。经过两天540局比赛的有效数据分析,一人一智能体组成的人机协作战队比两个智能体组成的机器战队展现了一定的优势,更重要的是AI与人在比赛中表现出的若干协作行为,如走位配合、东西分头并进、对对手恰到时机的阻挡和冰冻等,是群体协作智能的集中体现。
「启元世界」联合创始人兼CTO龙海涛介绍,“我们的目标是打造一种高度自主的智能体,它能够认知复杂、动态、不确定的环境,并采取可信可靠的决策,还能以一种自然的方式与人进行交互。早在2016年,我们便开始尝试在星际争霸等多款游戏中训练智能体,我们相信游戏是研究和验证认知决策智能技术的绝佳环境。一方面因为训练迭代速度很快,可以源源不断地产生数据;另一方面在于训练出来的智能是可以观测和感受到的。”
关于星际争霸作为决策智能算法研究平台的挑战,我们可以从以下几个方面去理解:
非完全信息下的博弈:围棋或者象棋是信息透明的。而星际争霸是非完全信息下的博弈,对手的重要信息都隐藏在战争迷雾之下,这就意味着需要通过侦查等手段去了解对手。
决策动作空间巨大:星际争霸中的每一次决策都需要在上百个指令、几百个单位和建筑、256*256的空间位置中选择一个合理的动作,这就带来了组合性爆炸,使得决策动作空间达到了10的26次方。
长期规划能力:一局完整的游戏可以持续个把小时、需要做出上千次决策,每一次决策都需要考虑长期的影响,而且还需要根据侦查到的信息动态调整,这对人工智能的挑战是非常大的。
「启元世界」创始人兼CEO袁泉告诉36氪:“我们正在研发‘星际指挥官’智能体,届时将与人类高手在没有任何限制的地图上进行对战。而这些核心技术问题的解决,将极大地促进决策智能的落地应用,赋能更多行业。”
自2017年8月成立以来,“启元世界”团队投入主要精力打造了一款通用的决策智能平台产品,并结合多个业务场景,提供了行业解决方案。“当很多人还在谈论强化学习劝退文、训练不稳定的时候,我们已经在这个平台产品上不断打磨,让智能体能够持续稳定地学习。包括这次NeurIPS多智能体竞赛夺冠,也是得益于此。”袁泉说。
「启元世界」团队将决策智能平台产品逐步应用于机器人、大安全、泛网络等领域,目前已服务了近10家客户。在袁泉看来,决策智能是一项比较通用的技术,这种辅助决策的能力可以泛化到很多行业。2019年,「启元世界」将为更多行业客户提供优质的决策智能解决方案。
团队方面,创始人兼CEO袁泉曾担任阿里认知计算实验室负责人、资深总监,手机淘宝天猫推荐算法团队缔造者,打造了“有好货”、“猜你喜欢”等电商知名个性化产品,率团队荣获“2015年双11CEO特别贡献奖”。加入阿里前,袁泉曾是IBM中国研究院的研究员,从事推荐等智能决策算法的研究,是IBM2011年全球银行业FOAK创新项目发起人。在工业实践的同时,其经验总结并发表十余篇论文在国际顶级会议ACM RecSys、KDD、SDM等。袁泉拥有多项中美技术专利,长期担任ACM RecSys、IEEE Transaction on Games审稿人。
联合创始人兼CTO龙海涛,目前致力于打造决策智能相关的技术和产品,擅长深度强化学习、分布式系统等技术方向。2013-2017年在阿里巴巴负责搜索广告业务的架构设计,主导了其核心的离线系统、在线引擎和索引内核的升级换代,并因此获得了阿里妈妈“最佳团队奖”、“最佳项目奖”和“双十一个人创新特别奖”。2003-2007年在IBM研究院从事移动计算方面的研究。有过多年成功的技术创业经历,为电信、银行、能源等大型企业提供IT解决方案。
2018年获得高榕资本Pre-A轮数千万融资。
相关推荐
NeurIPS多智能体强化学习竞赛夺冠的背后,是决策智能公司「启元世界」
启元发布智能体训练云平台 旗下AI战胜星际争霸全国冠军
创投日报 |「大丰收」完成数亿元C轮融资,「谊品生鲜」获腾讯领投 20 亿人民币 B 轮融资以及今天值得关注早期项目
霸榜马里奥赛车,谷歌将神经进化引入自解释智能体,强化学习训练参数锐减1000倍
研发空间智能技术,「宸境科技」想要打造城市级别镜像世界
非监督强化学习Get新技能:谷歌DADS算法助力智能体实现多样化行为发现
完胜星际顶级人类职业选手,AI“星际指挥官”究竟是何来历?
最前线 | “开悟AI+游戏高校大赛”启动,AI为何要学打王者荣耀?
当AI开始“踢脏球”,你还敢信任强化学习吗?
上海信数与美国智能决策公司Sparkling Logic达成合作,将联合研发智能决策产品
网址: NeurIPS多智能体强化学习竞赛夺冠的背后,是决策智能公司「启元世界」 http://www.xishuta.com/newsview2448.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94831
- 2人类唯一的出路:变成人工智能 18279
- 3报告:抖音海外版下载量突破1 17828
- 4移动办公如何高效?谷歌研究了 17547
- 5人类唯一的出路: 变成人工智 17382
- 62023年起,银行存取款迎来 10009
- 7网传比亚迪一员工泄露华为机密 8000
- 8顶风作案?金山WPS被指套娃 6446
- 9大数据杀熟往返套票比单程购买 6423
- 1012306客服回应崩了 12 6370