内容生成AI进入视频时代,谷歌Meta选手纷纷上场竞技
梦晨 Pine 发自 凹非寺
量子位 | 公众号
内容生成AI进入视频时代!
Meta发布仅仅过去一周时间,谷歌CEO劈柴哥紧接着连续派出两名选手参与上场展开竞争,请问句号。
Video的关于第一位的状况之下,和Meta的Make - A - Video比起来,显著地强调着尽显高清的态势了,它有构成能够合成出分辨率是1280 * 768的、每秒24帧的视频片段的能力。
另一位参与比赛的人,能够依据大约200个词的提示话语,创作出时长超过2分钟的长镜头画面,去叙述一个具备完整性的故事。
网友看过后表示,这一切进展实在太快了。
也有网友认为,这种技术一旦成熟,会冲击短视频行业。
那么,两个AI具体有什么能力和特点,我们分别来看。
Video:理解艺术风格与3D结构
Video是基于最近大幅火起来的扩散模型的,它能直接从5月份的图像生成 SOTA 模型那里继承而来。
除了分辨率高以外,还展示出三种特别能力。
首先,它具备理解能力,进而能够生成作品,这些作品有着不同的艺术风格,像是“水彩画”这一风格,又比如“像素画”这种风格,甚至是直接呈现出“梵高风格” 。
它还能理解物体的3D结构,在旋转展示中不会变形。
最后,它具备了继承准确描绘文字的能力,在此能力的基础之上,仅仅依靠简单描述,便能够产生各种各样的创意动画。
这效果,直接当成一个视频的片头不过分吧?
科研人员称,除应用效果优异外,其中所采用的部分优化方法,不仅在视频生成方面成效显著,还能够推广到普通扩散模型 。
具体来说, Video是一系列模型的集合。
谷歌自家的T5 - XXL构成了语言模型的一部分,在训练完成之后,文本编码器部分被冻结住。
和承担着将文本特征转化为图像特征任务的CLIP进行比较,存在着一个至关重要的差异,:
负责编码文本特征的是语言模型,它将文本到图像转换这项工作,交给了后面的视频扩散模型 。
以自回归方式,在生成图像的基础上,不断预测下一帧的基础模型,首先生成一个每秒3帧、48*24的视频。
随后,一系列具备空间超分辨率(Super-)特性以及时间超分辨率(Super-)特性的模型,相继针对视频开展扩展处理 。

所有7种扩散模型,都运用了v - 方法,和传统方法相较,在视频场景里,能够防止颜色偏移。
将这种方法推进至一般扩散模型,这也致使样本质量指标的收敛速度变得更为迅速。
此外并且存在着渐进式蒸馏,它会把每一次迭代所需要的采样步骤除以二,从而大幅度地节约显存消耗。
这些优化技巧加起来,终于使生成高清视频成为可能。
:人人都能是“导演”
的论文,投给了ICLR 2023会议。在一周之前,Meta发布Make-a-video时,它处于匿名双盲评审状态。
如今信息公开,原来研究团队同样来自谷歌。
它交互生成视频的能力在公开的信息里被展示出来,这种能力能将视频的整体风格任意切换,比如高清视频或者卡通风格,并且还可以对任意场景进行切换。
还可以向输入一个初始帧以及一个提示,便能生成一段视频。
这还算不上什么,真正厉害的是:讲故事,它本事可大了,能生成超过两分钟时长的长视频,而且得通过输入一串长达二百多个字符的系列提示才能获取到 。
(那有了这个模型,岂不是人人都能当导演了?手动狗头)
从此类模型发展的经历来讲,从文本提示过渡到视频阶段,计算成本在其中占据较高比例,高质量文本视频数据的数量存在着受限定的情况,并且视频长度呈现出会变化的态势,这些一直以来都是发展进程里的难题。
以往多数的AI模型,是借助单一的提示去生成视频,然而,要是想生成一个时长较长且连贯的视频,这样做远远不够。
它具备生成时长超过两分钟的视频之能力,且该视频带有故事情节,这主要归因于其依据一系列提示生成视频这样种能力 。
详细来讲,从事研究的人员引进了一个全新的因果模型,其目的在于去学习怎样表示视频,也就是把视频看作是图像所形成的一个时间方面的序列 。
这个模型是以此为根据从而能够,把视频划分成离散的微小表示,然而划分视频却是依照时间的因果顺序去开展的。
用更通俗的方式来讲,是利用空间对单个提示展开编码,然后借助因果把多个编码完成的提示串联起来。
依据一个提示,便能生成一段视频,如此这般,视频序列依着与提示里叙述的时间序列相符的方式,就能把整个“故事”连贯起来。
视频被压缩成离散的图像序列,如此一来,AI处理标记视频的数目大幅减少,在一定水平状况下,模型的训练成本得以降低 。
谈及模型训练,如同大型图像系统那般,同样主要借助文本 - 图像数据来展开训练,除此之外,研究人员还运用时长为1.4秒、帧率为8FPS的短视频文本对予以训练。
只要借助对诸多、大量的图像文本对,还有少量的视频文本例子,来实施联合训练,就能够达成突破视频数据集的成效 。
谷歌陆陆续续地释放出极具影响力的重大举措,Video也涵盖其中,文本至视频领域的人工智能呈现出极为迅猛的发展态势。
需要加以提及的是,Video方面的第一作者表明,存在两个团队会开展合作以推进后续的研究工作。
嗯,有的网友已经等不及了。
One More Thing
兼顾安全以及伦理方面的考虑,谷歌当前不会去发布那两个视频生成模型的代码,也不会发布其相应的Demo,是处于暂时这种状态 。

不过既然发了论文,出现开源复刻版本也只是时间问题。
毕竟当初论文出来没几个月,上就出现了版本。
此外,身为背后的始创者兼首席执行官,也曾讲过,将会推出比Meta的Make-A-Video更为出色的模型,并且是那种所有人都能够运用得着的。
当然喽,每每当AI存在了新的进展之后呢,就会不可避免地遭遇到那个话题,即AI究竟会不会去取代人类 。
目前来说,一位影视行业的工作者表示还不到时候:
坦率来讲,身为一个于电影行业从业达十年之久的人,此话题着实令人心生沮丧之感 。
从他的角度来看,当下的视频生成AI,在外行人眼中已然显得极为惊艳,然而,在业内人士那儿,会觉得这个AI仍旧欠缺对每一个镜头的那种精细把控。
有关于该个话题,那位新上任的首席信息官,在之前所撰写的文章里表明,人工智能最终将会带来更多数量的工作岗位。
伴随着相机的发明,尽管有大部分肖像画家被其取代,然而,它创造出了摄影师,并且还开拓出了像电影以及电视这般的全新产业。
若是在经历5年之后再回过头去看,那么反对AI这件事情,就如同当前反对它时一样显得奇怪,而AI仅仅只是另外的一个工具而已 。
宣告未来乃是环境人工智能即 AI 的时代,各个行业,各个领域,皆会于人工智能的助力之下展开发展 。
然如今吾等所需者乃一更为开放之人造智能环境,申言之:开源!
最后,要是当下你就打算玩一回AI生成视频,那么得先去上面尝试一下清华与智源实验室的 。
:
:
试玩:
参考链接:
点这里关注我,记得标星哦~


欢迎 你 发表评论: