2023年AI视频生成大爆发,盘点现状与技术挑战
过去一年,我们见证了,发生在AI视频领域的情况,Gen -2这样爆款产品出现了, 还有Pika这类的爆款产品也诞生了。
Moore,其来自a16z,对此作了颇为详细的盘点,盘点的内容涵盖人工智能视频生成领域当下的状况,涵盖不同模型之间的比较,还涵盖尚未得到解决的技术方面的挑战。
接下来,一起看看这篇文章都讲了什么?
AI视频生成大爆发
2023年,是AI视频获取突破的一年,然而,今年已经过去一个月时间,暂时还没有公开的文本至视频的模型。
在仅仅12个月的时间跨度内,有数十种视频生成类型的产品,受到了来自全球范围之内数量以万来计算的用户的喜爱。
然而,这些人工智能视频生成工具依旧相对受限,大多数仅仅能够生成时长为三至四秒的视频,与此同时质量常常是参差不齐的,角色一致性等方面的问题还没有得到解决。
就是说,我们距离制作出一个短片,这个短片只有文字提示且为具有的多个提示还远远达不到像素级别 。
然而,我们在过去一年里,于视频生成方面,取得了进步,这表明,世界正处于一场大规模变革的早期阶段,这与我们在图像生成方面所看到的情况相类似。
我们能够看到,文本朝着视频的有关模型处于持续改进的状态,图像朝着视频的相关方面呈蓬勃发展态势,视频朝着自身不同视频间的分支发展态势也是劲头十足 。
为了助力知晓这一创新的呈爆炸态势的增长,a16z追踪了直至当前最为急需予以关注的公司,以及该领域依旧存在着的潜在问题。
今天,你可以在哪里生成AI视频?
21个视频生成产品
今年到目前为止,a16z已经跟踪了21种公开产品。
虽然你或许听闻过,Pika,Genmo,Video,然而尚有好多别的事物必须去探寻。问号留句末
这些各种各样的产品,大数部分基本是源于初创公司,而在这些初创公司当中,好多都是出自bots呀,并且还具备有以下的几个方面的优势呢:
- 不需要构建自己面向消费者的界面,只需专注于模型质量
- 可以利用每月1.5亿活跃用户的基础进行分发
新用户,借助公共渠道,能获得创作灵感,其方式简便,是通过查看他人的创作 。
然而,随着技术走向成熟,我们开始察觉到,越来越多的AI视频产品,开始设立属于自己的网站,甚至于开始开发App 。
虽随着提供了一个堪称良好的平台,然而就纯生成之上所添加的工作流来讲,却是存在着限度的,再者团队对于消费者体验的把控也是颇为稀少的。
要值得加以注意的是,存在着很大的一部分人并不进行使用,原因在于他们觉得界面呈现出混乱的状态从而让人产生困惑 。
研究和技术
谷歌、Meta和其他公司在哪里?

于公开的产品列表当中,他们明显未出现,尽管你或许已然见到了他们所发布的有关Emu Video、模型及其他等诸多方面的帖子 。句号不能遗漏,这里用句号是因为原句整体表达一个完整意思,改写后语义未变,句末标点应保持一致 。
截至当前,大型科技企业大体上都不会挑选将自身的AI视频产物予以公开。
换成别的,是他们发布了各类与此相关的,由视频生成的论文,而非选用视频演示,。
比如,谷歌文本生成视频的模型
这些公司有着巨大的分销优势,其产品拥有数十亿用户。
那么,为何他们不放弃把视频模型发布出来,却要在这一属于新兴类别的市场里,去夺取相当巨大的份额呢。
最主要的原因在于,法律方面存在担忧,安全方面存在担忧,版权方面存在担忧,这些担忧常常致使那些大公司难以把研究转变为产品,并且会推迟推出产品,这样一来,便让新来者拥有了获得先发优势的机会。
AI视频的下一步是什么?
设你往昔运用过这些产品,那就会晓得在 AI 视频步入主流产品之前,依旧存在着相当大的改进余地,。
在某些时候,能够察觉到,AI视频工具具备将提示内容生成视频的那种「神奇时刻」,然而这般的情形相对来讲是比较少见的。更为常见的状况是,你需要去点击几次从而进行重新生成,之后再去裁剪或者编辑输出,以此才能够获取到专业级别的片段。
这一领域的大多数公司都专注于解决一些核心的问题:
控制性方面,你能不能同时控制所处场景当中所发生的各类事情呢,举例来说,像是提示有人向前走这种情况,其动作是否会依照所描述的那样呈现呢,关于后一点,众多产品都增添了一些功能,这些功能能够允许你针对镜头进行zoom操作或者pan操作,甚至还能够添加特效 。
一直以来,「动作是否与所描述的那般」都颇难予以解决,这关乎到底层模型的质量方面的问题,也就是模型是不是能够理解提示所蕴含的意义,并且能够依照要求去进行生成,即便一些公司正致力于在生成之前给予更多的用户控制 。
比如,brush是个很好的例子,它能让用户针对高粱图像特定区域,还能确定该区域运动方式。
时间一致性,怎样使得角色,以及对象,还有背景,于帧之间维持一致,不至于变形成为别的东西又或者扭曲呢?
在所有公开提供的模型中,这是一个非常常见的问题。
若你于今日目睹一段连贯持续一段时间的视频,时长超出几秒。极有可能此视频为视频到视频,即先拍摄一段视频,而后借助诸如之类的工具去转变风格 。
- 长度——制作长时间的短片与时间连贯性高度相关。
不少公司会对生成视频的长度加以限制,是由于他们没办法保证在几分钟之后,视频依旧能够维持一致性 。
如你瞅见一个极为冗长的AI视频,需明白它们是经由一堆短小片段组合而成的。
尚未解决的问题
视频的时刻什么时候到来?
其实我们还有很长的路要走,需要回答以下几个问题:
1 当前的扩散架构是否适用于视频?

今天的视频模型,是基于扩散模型搭建而成的,其基本原理在于生成帧,并且试图在这些帧之间创建时间一致的动画,实现这一点存在多种策略。
关于3D空间以及对象究竟该以怎样的方式去进行交互这一概念,他们压根儿不存在内在的理解,而这一点恰恰解释了 / 。
2 优质训练数据从何而来?
和余者模态模型相较,训练视频模型要更难些,这主要在于视频模型没有那么多能用于学习的高质量训练数据。语言模型常常于公共数据集(像Crawl)上开展训练,而图像模型是在LAION以及等标记数据集(文本和图像的配对)上予以训练。
视频数据获取起来更具难度,在诸如和等平台之上,存在着相当数量公开能够进行访问的视频,然而这些视频没有相应标签,并且在多样性方面也有所欠缺了 。
3 这些用例将如何在平台/模型之间进行细分?
我们看到的是,在几乎每一种内容模态中,一种模型并非针对所有用例都能“取胜”。比如,有风格各异的情况存在,并且在生成不同类型图像方面各有擅长之处,像提到的、和Dall - E 。
你若是对今日的文本到视频这种模式作一番测试,再对图像到视频这种模式进行一下测试,便会发觉,它们在不同的风格方面有所擅长,在不同的运动类型方面有所擅长,在不同的场景构成方面有所擅长 。
提示:Snow on a city ,
Genmo
Video
Pika Labs
谁将主导视频制作的工作流程?
而在许多产品之间,来回是没有意义的。
除了单纯的视频生成,制作精良的剪辑或者电影往往需要进行编辑,尤其是在当下的范例情形里,众多创作者正借助视频模型去制作于另一个平台之上所创建的照片的动画 。
从图像起始,于Pika之上制作动画,而后在Topz那里实施升级过的视频并非罕见。
然后,创作者把视频带到编辑平台,比如或等,接着添加配乐,这配乐通常是在Suno和等其他产品上生成的,之后添加画外音。
参考资料:


欢迎 你 发表评论: