内容生成AI进入视频时代，谷歌Meta选手纷纷上场竞技

作者：每日干货分享

发布时间：2025-11-03 18:11:16 浏览量：43 0

梦晨 Pine 发自凹非寺

量子位 | 公众号

内容生成AI进入视频时代！

Meta发布仅仅过去一周时间，谷歌CEO劈柴哥紧接着连续派出两名选手参与上场展开竞争，请问句号。

Video的关于第一位的状况之下，和Meta的Make - A - Video比起来，显著地强调着尽显高清的态势了，它有构成能够合成出分辨率是1280 * 768的、每秒24帧的视频片段的能力。

另一位参与比赛的人，能够依据大约200个词的提示话语，创作出时长超过2分钟的长镜头画面，去叙述一个具备完整性的故事。

网友看过后表示，这一切进展实在太快了。

也有网友认为，这种技术一旦成熟，会冲击短视频行业。

那么，两个AI具体有什么能力和特点，我们分别来看。

Video：理解艺术风格与3D结构

Video是基于最近大幅火起来的扩散模型的，它能直接从5月份的图像生成 SOTA 模型那里继承而来。

除了分辨率高以外，还展示出三种特别能力。

首先，它具备理解能力，进而能够生成作品，这些作品有着不同的艺术风格，像是“水彩画”这一风格，又比如“像素画”这种风格，甚至是直接呈现出“梵高风格” 。

它还能理解物体的3D结构，在旋转展示中不会变形。

最后，它具备了继承准确描绘文字的能力，在此能力的基础之上，仅仅依靠简单描述，便能够产生各种各样的创意动画。

这效果，直接当成一个视频的片头不过分吧？

科研人员称，除应用效果优异外，其中所采用的部分优化方法，不仅在视频生成方面成效显著，还能够推广到普通扩散模型。

具体来说， Video是一系列模型的集合。

谷歌自家的T5 - XXL构成了语言模型的一部分，在训练完成之后，文本编码器部分被冻结住。

和承担着将文本特征转化为图像特征任务的CLIP进行比较，存在着一个至关重要的差异，：

负责编码文本特征的是语言模型，它将文本到图像转换这项工作，交给了后面的视频扩散模型。

以自回归方式，在生成图像的基础上，不断预测下一帧的基础模型，首先生成一个每秒3帧、48*24的视频。

随后，一系列具备空间超分辨率（Super-）特性以及时间超分辨率（Super-）特性的模型，相继针对视频开展扩展处理。

所有7种扩散模型，都运用了v - 方法，和传统方法相较，在视频场景里，能够防止颜色偏移。

将这种方法推进至一般扩散模型，这也致使样本质量指标的收敛速度变得更为迅速。

此外并且存在着渐进式蒸馏，它会把每一次迭代所需要的采样步骤除以二，从而大幅度地节约显存消耗。

这些优化技巧加起来，终于使生成高清视频成为可能。

：人人都能是“导演”

的论文，投给了ICLR 2023会议。在一周之前，Meta发布Make-a-video时，它处于匿名双盲评审状态。

如今信息公开，原来研究团队同样来自谷歌。

它交互生成视频的能力在公开的信息里被展示出来，这种能力能将视频的整体风格任意切换，比如高清视频或者卡通风格，并且还可以对任意场景进行切换。

还可以向输入一个初始帧以及一个提示，便能生成一段视频。

这还算不上什么，真正厉害的是：讲故事，它本事可大了，能生成超过两分钟时长的长视频，而且得通过输入一串长达二百多个字符的系列提示才能获取到。

（那有了这个模型，岂不是人人都能当导演了？手动狗头）

从此类模型发展的经历来讲，从文本提示过渡到视频阶段，计算成本在其中占据较高比例，高质量文本视频数据的数量存在着受限定的情况，并且视频长度呈现出会变化的态势，这些一直以来都是发展进程里的难题。

以往多数的AI模型，是借助单一的提示去生成视频，然而，要是想生成一个时长较长且连贯的视频，这样做远远不够。

它具备生成时长超过两分钟的视频之能力，且该视频带有故事情节，这主要归因于其依据一系列提示生成视频这样种能力。

详细来讲，从事研究的人员引进了一个全新的因果模型，其目的在于去学习怎样表示视频，也就是把视频看作是图像所形成的一个时间方面的序列。

这个模型是以此为根据从而能够，把视频划分成离散的微小表示，然而划分视频却是依照时间的因果顺序去开展的。

用更通俗的方式来讲，是利用空间对单个提示展开编码，然后借助因果把多个编码完成的提示串联起来。

依据一个提示，便能生成一段视频，如此这般，视频序列依着与提示里叙述的时间序列相符的方式，就能把整个“故事”连贯起来。

视频被压缩成离散的图像序列，如此一来，AI处理标记视频的数目大幅减少，在一定水平状况下，模型的训练成本得以降低。

谈及模型训练，如同大型图像系统那般，同样主要借助文本 - 图像数据来展开训练，除此之外，研究人员还运用时长为1.4秒、帧率为8FPS的短视频文本对予以训练。

只要借助对诸多、大量的图像文本对，还有少量的视频文本例子，来实施联合训练，就能够达成突破视频数据集的成效。

谷歌陆陆续续地释放出极具影响力的重大举措，Video也涵盖其中，文本至视频领域的人工智能呈现出极为迅猛的发展态势。

需要加以提及的是，Video方面的第一作者表明，存在两个团队会开展合作以推进后续的研究工作。

嗯，有的网友已经等不及了。

One More Thing

兼顾安全以及伦理方面的考虑，谷歌当前不会去发布那两个视频生成模型的代码，也不会发布其相应的Demo，是处于暂时这种状态。

不过既然发了论文，出现开源复刻版本也只是时间问题。

毕竟当初论文出来没几个月，上就出现了版本。

此外，身为背后的始创者兼首席执行官，也曾讲过，将会推出比Meta的Make-A-Video更为出色的模型，并且是那种所有人都能够运用得着的。

当然喽，每每当AI存在了新的进展之后呢，就会不可避免地遭遇到那个话题，即AI究竟会不会去取代人类。

目前来说，一位影视行业的工作者表示还不到时候：

坦率来讲，身为一个于电影行业从业达十年之久的人，此话题着实令人心生沮丧之感。

从他的角度来看，当下的视频生成AI，在外行人眼中已然显得极为惊艳，然而，在业内人士那儿，会觉得这个AI仍旧欠缺对每一个镜头的那种精细把控。

有关于该个话题，那位新上任的首席信息官，在之前所撰写的文章里表明，人工智能最终将会带来更多数量的工作岗位。

伴随着相机的发明，尽管有大部分肖像画家被其取代，然而，它创造出了摄影师，并且还开拓出了像电影以及电视这般的全新产业。

若是在经历5年之后再回过头去看，那么反对AI这件事情，就如同当前反对它时一样显得奇怪，而AI仅仅只是另外的一个工具而已。

宣告未来乃是环境人工智能即 AI 的时代，各个行业，各个领域，皆会于人工智能的助力之下展开发展。

然如今吾等所需者乃一更为开放之人造智能环境，申言之：开源！

最后，要是当下你就打算玩一回AI生成视频，那么得先去上面尝试一下清华与智源实验室的。

：

试玩：

参考链接：

点这里关注我，记得标星哦~

AI写作工具

AI办公助手

AI图像处理工具

AI视频生成工具

AI音乐音频工具

AIGC内容检测工具

AI法律助手

社媒账号

跨境电商获客工具

全球电商平台

币圈工具

海外app集合

内容生成AI进入视频时代，谷歌Meta选手纷纷上场竞技

相关文章推荐

取消回复欢迎你发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

内容生成AI进入视频时代，谷歌Meta选手纷纷上场竞技

相关文章推荐

取消回复 欢迎 你 发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

取消回复欢迎你发表评论: