首页科技快讯想看段"零失误"的足球比赛视频？没准你可以用AI来生成一个！

想看段"零失误"的足球比赛视频？没准你可以用AI来生成一个！

来源：晰数塔互联网快讯时间：2021年02月09日 16:15

编者按：本文来自微信公众号“将门创投”（ID:thejiangmen），作者：让创新获得认可，36氪经授权发布。

From: VentureBeat；编译: Shelly

为了开发一个能像人类思维般进行推理的AI系统，特伦托大学、巴黎理工研究所和Snap公司提出了一种可播放视频生成器(Playable Video Generation，简称PVG)，有了它，用户只需要敲几下键盘，就能控制视频中的某个目标，可播放视频生成器会根据用户在每一步输入的“动作标签”合成用户希望展示的一连串动作，形成一套流利的行为。

其中，研究人员设计了一个名为“群集行为分解和发现”的框架(CADDY)，研究人员声称，CADDY可以生成可操作的高质量视频，让用户有机会选择在视频中发生的动作——类似于Facebook的人工智能将视频中的真人转化为可操作的游戏角色。

研究人员相信，这一研究成果可能为模拟真实世界环境奠定基石，同时提供一种类似电子游戏的体验。

更多详情，请参看PVG项目主页和论文原文：

论文链接：

https://arxiv.org/abs/2101.12195

项目主页:

https://willi-menapace.github.io/playable-video-generation-website/

对于人类来说，识别物体本身以及物体如何与环境相互作用是件再容易不过的事。比如说，在网球和足球比赛中，尽管观众和主持人并不会在事先得到一张预告赛事的动作清单，但大家还是可以实时理解球员的动作并预测比赛形势。

为了开发一个能像人类思维般进行推理的AI系统，特伦托大学、巴黎理工研究所和Snap公司提出了可播放视频生成器，目标是使AI从真实的视频中学习一系列行为动作，为用户提供生成/合成视频。

具体而言，用户只需要敲几下键盘，就能控制视频中的某个目标，可播放视频生成器会根据用户在每一步输入的“动作标签”合成用户希望展示的一连串动作，形成一套流利的行为。研究人员相信，这个框架可能为模拟真实世界环境奠定基石，同时提供一种类似电子游戏的体验。

PVG操作实例

在《Playable Video Generation》论文中，研究人员介绍了可播放视频生成器(PVG)的无监督学习问题。PVG在大量未标记视频数据集上以自我监督的方式训练，同时采用一种编码器-解码器架构，其中预测的动作标签则起到瓶颈层（bottleneck）的作用。在不同环境下的几个数据集里都证明了论文提出的方法的有效性。更多的细节、代码和示例可以在论文的项目页面上查看。

作者的目标是让用户在玩电子游戏时，通过在每个时间步骤中选择离散动作来控制并生成视频。该任务的难点在于学习语义一致的动作，以及根据用户的输入来生成观感逼真的视频。

在实验中，研究人员设计了一个Clustering for Action Decomposition and DiscoverY (CADDY)的框架，在观看多个视频后发现一系列行为并输出可控的播放视频。CADDY使用上述的操作标签来编码给定动作，使用连续元素来捕获操作，编码具有连续性。

CADDY Demo入口：

https://willi-menapace.github.io/playable-video-generation-website/play.html

研究人员写道：“给定一组完全没有标记的视频，我们共同学习一组离散的动作和视频生成模型。当然，视频生成模型提前学习了一些动作。在测试时，用户可以实时控制生成的视频，提供动作标签，就像他在玩电子游戏一样。我们将这个方法命名为CADDY。”

研究人员表示，无监督可播放视频生成架构是由几个元素组成的。编码器E从输入序列中提取框架表示(frame representations)。时间模型使用递归动态网络R来估计连续的状态，同时操作网络A根据输入序列预测动作标签。最后，解码器D重建输入框架。在这个过程中，模型的主要驱动损耗是重构框架部分。”

实验结果令人振奋。CADDY自动捕捉了关键动作并生成可控的播放视频，生成视频的种类很多，从游戏视频到真实的视频不等。在BAIR数据集、Atari Breakout和网球数据集上测试其模型，每个动作捕捉一个特定的表现行为，保证了动作含义的一致性。

研究人员声称，CADDY可以生成“高质量”的视频，与此同时，用户有机会决定视频中的角色发生什么动作——类似于Facebook的人工智能从真实的视频中提取可操作的游戏角色。

关于Facebook提取人物的AI，其方法是从一个视频中提取一个角色，使人能够控制它的动作。“该模型生成的视频可以具有任意背景，并有效地捕捉到人的动态和外观。”

Facebook团队的方法依赖于两个神经网络，以生物神经元为模型的数学函数层Pose2Pose以及Pose2Frame。首先输入的是Pose2Pose神经网络，该神经网络专为舞蹈、网球或击剑等特定类型动作而设计，系统会计算出人与背景的相对位置，分离人体与姿势数据；Pose2Frame神经网络将人体、阴影和手持物一同插入到新场景中，此时模型便是可操控的了。

Facebook从视频中提取可控人物角色

而在CADDY框架下，用户可以选择左、右、前、后、击球或留在原地，由系统捕捉一系列动作后生成视频。

“我们的实验表明，我们可以学习一套丰富的动作来控制生成的视频，为用户提供游戏般的体验。未来，我们计划将该方法扩展到多智能环境。”研究人员写道：“CADDY会自动发现最重要的动作来决定视频生成，并在各种设置中生成可控视频，包括游戏视频和真实视频。”

顺便一说，多智能体系统(Multi-Agent System)是近年来在智能机器人领域兴起的一个新的课题,它往往以机器人足球比赛作为其标准研究对象。

在短期内，这项工作可能会降低企业视频制作的成本。比如说，拍摄一小段商业广告需要1500~3500美元，这对于中小型企业来说是一笔不小的开销。也因为并非所有的公司都具备视觉方面的专业知识来进行软件操作，更多的小公司玩不转专业软件。所以，像CADDY这样的工具可以减少麻烦、避免重拍，同时打开创作的新可能。