首页 每日干货分享 刷到的AI短视频背后,你想象不到的算力成本有多高

刷到的AI短视频背后,你想象不到的算力成本有多高

发布时间: 浏览量:33 0

你刷到时长为1分钟的由AI生成的短视频之际,或许想象不出它后背的算力花费,。

传统的视频扩散模型,处理视频时采用密集注意力机制。

此方法虽可确保画质,然而计算量极大,生成时长为10秒的视频便要耗费数千元的算力费用,伴随视频长度的增加,算力需求呈指数级地飙升 。

近来,由麻省理工学院英伟达等研究人员所发明的「径向注意力」技术,不但使长视频生成速度得以提升3.7倍,而且还能够将训练成本削减4.4倍。

论文链接:

代码链接:

径向注意力

在扩散模型的加持下,高质量视频生成逐渐从科幻变成现实。

然而,视频所具有的时间维度性质,给算力带来了诸多负担,进而致使训练以及推理长视频时的成本急剧飙升。

生成10秒视频,就要烧掉数千元算力费用,那价格高得,令人望而却步。

针对这种情况,那团队是从热力学那里获取了些许灵感,即不存在任何一种传播是不会有损耗的,信号,还有影响以及注意力,均是会伴随距离的增加而出现衰减的。

他们发现,视频扩散模型里的注意力有分数,这个分数同样遵循这样的规律,那就是,后的权重,是随着token间的空间而递减的,并且,也是随着token间的时间距离而递减的。

这种「时空能量衰减」现象与自然界信号的物理衰减不谋而合。

这会不会就是视频生成降本增效的关键?

为了能够进一步去证实这样的一种猜想,团队提出了「径向注意力」( ),它是这样的一种稀疏注意力机制,其计算复杂度仅仅只是为O(nlog n) 。

和之前SVG每次推理时对空间注意力进行动态选择不一样,和之前SVG每次推理时对时间注意力进行动态选择不一样,径向注意力采用的是一种统一的静态掩码,径向注意力采用的是一种高效的静态掩码。

这种掩码,将空间注意力与时间注意力合为一体,进而带来在进行长视频生成时,更为灵动、更为迅速的体验。

此外,这般简洁的静态注意力掩码致使每个token仅仅关注邻近空间的邻居元素,随着时间距离的不断拉长,注意力窗口逐步收缩。

与传统的O (n²)密集注意力进行比较,径向注意力不但将计算效率大幅度提升,而且在线表达能力方面比线性注意力更强。

借助这项针对注意力机制的创新加持,高质量视频生成的速度变得更快,时长变得更长。

资源消耗在训练和推理方面被极大地降低,这为视频扩散模型打开了新的可能。

ai生成视频技术_径向注意力技术视频生成效率_AI生成视频算力成本

效果有多惊艳?实测数据来说话

致力于研究的团队,于三个占据主流地位的模型之上,开展了相关测试,这三个模型分别是Wan2.1 - 14B,以及Mochi 1呢,它们所覆盖的是存在不同参数规模情况的场景 。

Mochi 1,能够生成视频,视频时长可达5秒,分辨率为480p,帧数是162帧;能够生成视频,并且视频长达5秒,分辨率为720p,帧数为125帧;Wan2.1 - 14B会生成长度达5秒,拥有720p分辨率,81帧的视频。

速度提升1.9倍到3.7倍

在默认视频长度的情形下,比如是117帧,径向注意力能够将推理速度提升,提升幅度大概是1.9倍

视频长度扩展至四倍之际,速度提升更为显著,由2895秒(接近50分钟)降至781秒(大约13分钟),整整快了3.7倍!

以前一小时才能生成的视频,现在喝杯咖啡的功夫就搞定了。

表1进行了展示,展示的内容是径向注意力与三个强稀疏注意力基线的比较,此比较是在和Wan2.1-14B的默认生成长度下进行的。

在相同计算预算(用于衡量)的情况下,径向注意力保留了密集注意力的视频质量,与此同时,在相似性指标(PSNR、SSIM、LPIPS)方面,它始终比STA和PA更具优势,并且与SVG的质量相当。

于单个H100之上,径向注意力达成了1.9倍的端到端加速,Wan 2.1达成了1.8倍的端到端加速,这与理论计算预算节省情况(1.8倍和1.7倍)相适配。

尽管STA借助使用 -3这种操作的是(FA-3)从而产生了略微高些的加速,然而视觉质量显著地下降了。

训练费用最多节省4.4倍

最烧钱的长视频生成部分实际上是训练阶段,运用的是径向注意力,搭配LoRA微调技术,训练成本得以直接大幅下降。

对企业来讲这是极大的利好消息,以往制作一个长视频项目或许得投入几十万,如今兴许只需几万块。

表2给出了视频生成结果,该结果是2倍原始长度的,也是4倍原始长度的。为确保公平性,所有稀疏注意力基线采用相似的稀疏率句号。

生成长视频之际,未经再作调优的原本模型,展现出明显的质量退化,特别是在视频长度扩展至4倍之时。

尽管于2倍长度外推之际性能得以提高,然而在此之后其质量却出现恶化,这说明了扩展能力受限。 ·

空间稀疏注意力受到有限感受野的影响,时间稀疏注意力同样受到有限感受野的影响,另一方面,PA具有全局感受野,然而却未能捕捉时空相关性,进而导致质量下降。

AI生成视频算力成本_ai生成视频技术_径向注意力技术视频生成效率

有趣的是,PA在微调之后,视觉奖励有了很大程度的提高,这表明,其原始的稀疏模式,与预训练的注意力分布,是不一致的。

微调允许模型适应施加的注意力稀疏性,改善对齐和质量。

SANA把注意力替换成线性注意力,这需要大规模开展重新训练,而且在基于微调的视频长度扩展情形下失败了。

与之相较,经由径向注意力予以落实的质量程度等同于透过LoRA微调的密集注意力模型所达成的质量程度。甚至于在当下所设定的视频长度状况之下,相较于预训练模型而言,视觉奖励方面呈现出了亦步亦趋微微加高的态势。

径向注意力,因O(nlog n)复杂度,较原始密集注意力,提供了显著的推理加速,也提供了显著的训练加速,情况如表2所示,情况如图2所示。

生成视频,出现四倍长度的情况时,能够节省成本,节省的成本高达四点四倍,并且实现加速,加速的程度厉害到高达三点七倍,是关于推理方面的加速 。

最关键的是,速度和成本降下来了,画质还没缩水。

在上面,径向注意力的PSNR值达到了27.3,这一数值跟原始模型大体保持一样;其视觉奖励分数是0.134,甚至比密集注意力的0.133略微高那么一小点 。

不只是快:

径向注意力的「隐藏技能」

很多技术升级都需要重新训练模型,但径向注意力不需要。

它能够直接运用在事先训练好的模型中,借由简单的LoRA微调达成加速,。

存在一个关键优势,它属于径向注意力,是与预训练的特定任务LoRA无缝兼容,比如艺术风格迁移,这对于创作者而言极其友好。

在图8里所呈现的情况之下,把扩展长度LoRA跟现有的风格LoRA进行结合来运用,达成了长视频生成这件事,并且还将视觉质量给保留了下来。

研究团队还进行了观察,所观察到的是的,合并LoRA而生成的内容风格,此风格与原始LoRA存在着略微的不同。

这种差异,主要归因于,用于训练扩展长度LoRA的,相对较小的数据集,这可能引入,轻微的风格偏差,与风格LoRA相互作用。

在更为全面的数据集之上进行训练,针对长度扩展LoRA,预计这样做将会有助于缓解此问题。

曾经,生成时长为一分钟的AI视频,是众多中小团队所不敢想象的 ,如今,径向注意力使得这件事情具备了可行性 。

往后,我们或许会瞧见更多由AI生成的长视频内容,诸如短视频平台的剧情号 。

参考资料:

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~