首页科技快讯 Sora是如何实现1分钟一镜到底？

Sora是如何实现1分钟一镜到底？

来源：晰数塔互联网快讯时间：2024年02月21日 05:14

本文转自：扬子晚报

Sora是如何实现1分钟一镜到底？

OpenAI推出新款文生视频工具Sora,记者实测其真正实力

开发出热门聊天机器人ChatGPT后，OpenAI继续在生成式人工智能上玩出新花样。2月16日，OpenAI推出新的AI大模型Sora，该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

Sora一推出立即引发业内外广泛关注。许多人预测，这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力，扬子晚报/紫牛新闻记者进行了实测对比。

扬子晚报/紫牛新闻记者姜天圣

记者实测

Sora与Runway比较

在本次测试中，我们选择了目前业界领先的文生视频模型Runway作为参照。目前Runway有三个功能，分别为“根据文字生成视频（文生视频）”“根据图片生成视频”“根据图片及文字生成视频”。由于Sora只开放了文生视频功能，所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.（用35毫米胶片拍摄出的单人跑者）”，记者将这段描述输入Runway，生成多个4秒钟的视频。从反馈结果来看，Runway生成视频全部带有胶片特效，可见Runway已能够理解并生成胶片拍出的视频效果。

但Sora表现“惊为天人”，在同样描述Sora给出的视频中，跑者动作十分自然，几乎看不出关节处变形的情况，一眼看去几乎乱真，而且Sora输出视频时长达17秒。

那如果给到的描述再多一些，生成的对象也由人变成相对简单的机械呢？第二段测试的描述为，“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”（镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面，它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上，轮胎上的灰尘飞溅，阳光照射在SUV上，有着温暖的光芒。）

和上面一样，Runway的视频只有4秒，并且只有一个场景，而Sora生成的视频长达20秒，且细节方面处理得更好，当然瑕疵也有，Sora生成的这辆SUV没有受到路面影响，有点像漂浮行走。

结论

现有模型更像是会动的图片而Sora是真正意义上的视频

总结一下，现有的文生视频模型Runway在理解人类语言上基本没问题，并且能够准确地按要求生成视频，但它只能生成4秒的视频，并且在处理复杂动作（例如跑步）时会崩，相比视频，它生成的更像是一张会动的图片（只能有一个镜头）。

而Sora在细节处理上更胜一筹，在镜头切换、衔接上已经远超Runway的水准。不过，记者在测试中发现Sora视频也存在一些问题，比如跑步机的质感太差、跑步机上跑垫是静止的、人物头发过渡不自然等。

由于Sora还未以公开形式开放，本次对比中Sora生成的视频都是其官网提供的，而Runway生成的视频则是记者经多次生成，然后在其中择优选择。

揭秘

1、Sora将颠覆电影拍摄的现有方式

当其他工具还在努力保持单镜头稳定时，Sora已经丝滑实现多镜头的无缝切换，且镜头切换的连贯性和对象的一致性效果都遥遥领先，堪称“降维打击”。在过去，要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在，仅需一段简单的文本描述，Sora就能彻底生成这样的大场面，相关从业者或许已经开始瑟瑟发抖了。

如同搭积木般组合视频

那么，Sora是怎么实现强大效果的？OpenAI 引入了视觉块嵌入代码（patches)，这是一种高度可扩展且有效的视觉数据表现形式，能够极大提升生成模型处理多样化视频和图像数据的能力。此外，OpenAI 还训练了一个解码器模型，能够将这些潜在表征还原为像素级的视频图像。

采用基于patchs的表现形式，Sora能够适应不同分辨率、持续时间及宽高比的视频和图像，在生成新视频内容时，可以通过将这些随机初始化的patchs按照需要的大小排列成网格，来控制最终视频的大小和形式。

尽管上述原理听起来颇为复杂，但实际上 OpenAI 所用的这项新技术——视觉块嵌入代码（简称视觉块）——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来，即便面对众多积木，只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式，当OpenAI向Sora提供一个新的视频任务时，它们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样，把视频重新组合起来。这样做的好处是，计算机可以更快地学习和处理各种不同类型的图片和视频。

传统的影视制作流程将被重塑

通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这意味着，继文本、图像之后，OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑，有人振奋地表示“我们真的看到新工业革命来临”。

生成式AI过去已积累了不少图像、声音等素材，并通过不断学习形成了更为成熟的算法。因此，若是可以通过AI在计算机中创建视频素材，或许将对影视行业产生重大影响。

从事影视行业近20年的周辉如今是影像创意科技企业北京天工异彩影视科技有限公司的副总裁兼CTO。他认为，Sora生成的视频质量足够震撼，可以缩短电影拍摄周期。未来，一部小说也许就能生成一部影视作品，电影生产方式本身的高壁垒和独断性会被打破。特效、摄影、灯光等传统工种在AI之下不具备优势，但AI生成视频也会带来新的分工，但影视行业的大部分从业人员都没有充分准备好Sora带来的影响。综合

2、Sora创始团队中有位南师附中校友

Sora的爆火，让其背后的创始团队备受关注，据悉，有多位华人参与其中。记者获悉，团队中的Ricky Wang中文名王宇，是南京师范大学附属中学2013届的毕业生，考入加州大学伯克利分校就读本科，曾供职过Meta、Instagram等多家公司。

2月20日，记者联系了南京师范大学附属中学，学校证实了此事。据了解，王宇于2010年进入南师附中就读，2013年考入加州大学伯克利分校。记者尝试联系王宇，但其本人表示不便接受采访。有网友表示，王宇是江苏人，年轻有为，在Meta工作时有不少华人工程师与他共事过。

据Sora团队成员的履历显示，这支团队共13人，成立时间非常短，不少人入职时间都未超过1年，而王宇则是2024年1月刚刚入职。根据领英信息，团队中有两人去年刚刚博士毕业，还有一位“00”后，本科毕业后，同样于今年1月加入团队。

扬子晚报网/紫牛新闻记者刘浏

发布于：北京