刷到的AI短视频背后，你想象不到的算力成本有多高

作者：每日干货分享

发布时间：2025-11-01 09:36:14 浏览量：41 0

你刷到时长为1分钟的由AI生成的短视频之际，或许想象不出它后背的算力花费，。

传统的视频扩散模型，处理视频时采用密集注意力机制。

此方法虽可确保画质，然而计算量极大，生成时长为10秒的视频便要耗费数千元的算力费用，伴随视频长度的增加，算力需求呈指数级地飙升。

近来，由麻省理工学院英伟达等研究人员所发明的「径向注意力」技术，不但使长视频生成速度得以提升3.7倍，而且还能够将训练成本削减4.4倍。

论文链接：

代码链接：

径向注意力

在扩散模型的加持下，高质量视频生成逐渐从科幻变成现实。

然而，视频所具有的时间维度性质，给算力带来了诸多负担，进而致使训练以及推理长视频时的成本急剧飙升。

生成10秒视频，就要烧掉数千元算力费用，那价格高得，令人望而却步。

针对这种情况，那团队是从热力学那里获取了些许灵感，即不存在任何一种传播是不会有损耗的，信号，还有影响以及注意力，均是会伴随距离的增加而出现衰减的。

他们发现，视频扩散模型里的注意力有分数，这个分数同样遵循这样的规律，那就是，后的权重，是随着token间的空间而递减的，并且，也是随着token间的时间距离而递减的。

这种「时空能量衰减」现象与自然界信号的物理衰减不谋而合。

这会不会就是视频生成降本增效的关键？

为了能够进一步去证实这样的一种猜想，团队提出了「径向注意力」（），它是这样的一种稀疏注意力机制，其计算复杂度仅仅只是为O(nlog n) 。

和之前SVG每次推理时对空间注意力进行动态选择不一样，和之前SVG每次推理时对时间注意力进行动态选择不一样，径向注意力采用的是一种统一的静态掩码，径向注意力采用的是一种高效的静态掩码。

这种掩码，将空间注意力与时间注意力合为一体，进而带来在进行长视频生成时，更为灵动、更为迅速的体验。

此外，这般简洁的静态注意力掩码致使每个token仅仅关注邻近空间的邻居元素，随着时间距离的不断拉长，注意力窗口逐步收缩。

与传统的O (n²)密集注意力进行比较，径向注意力不但将计算效率大幅度提升，而且在线表达能力方面比线性注意力更强。

借助这项针对注意力机制的创新加持，高质量视频生成的速度变得更快，时长变得更长。

资源消耗在训练和推理方面被极大地降低，这为视频扩散模型打开了新的可能。

效果有多惊艳？实测数据来说话

致力于研究的团队，于三个占据主流地位的模型之上，开展了相关测试，这三个模型分别是Wan2.1 - 14B，以及Mochi 1呢，它们所覆盖的是存在不同参数规模情况的场景。

Mochi 1，能够生成视频，视频时长可达5秒，分辨率为480p，帧数是162帧；能够生成视频，并且视频长达5秒，分辨率为720p，帧数为125帧；Wan2.1 - 14B会生成长度达5秒，拥有720p分辨率，81帧的视频。

速度提升1.9倍到3.7倍

在默认视频长度的情形下，比如是117帧，径向注意力能够将推理速度提升，提升幅度大概是1.9倍

视频长度扩展至四倍之际，速度提升更为显著，由2895秒（接近50分钟）降至781秒（大约13分钟），整整快了3.7倍！

以前一小时才能生成的视频，现在喝杯咖啡的功夫就搞定了。

表1进行了展示，展示的内容是径向注意力与三个强稀疏注意力基线的比较，此比较是在和Wan2.1-14B的默认生成长度下进行的。

在相同计算预算（用于衡量）的情况下，径向注意力保留了密集注意力的视频质量，与此同时，在相似性指标（PSNR、SSIM、LPIPS）方面，它始终比STA和PA更具优势，并且与SVG的质量相当。

于单个H100之上，径向注意力达成了1.9倍的端到端加速，Wan 2.1达成了1.8倍的端到端加速，这与理论计算预算节省情况（1.8倍和1.7倍）相适配。

尽管STA借助使用 -3这种操作的是（FA-3）从而产生了略微高些的加速，然而视觉质量显著地下降了。

训练费用最多节省4.4倍

最烧钱的长视频生成部分实际上是训练阶段，运用的是径向注意力，搭配LoRA微调技术，训练成本得以直接大幅下降。

对企业来讲这是极大的利好消息，以往制作一个长视频项目或许得投入几十万，如今兴许只需几万块。

表2给出了视频生成结果，该结果是2倍原始长度的，也是4倍原始长度的。为确保公平性，所有稀疏注意力基线采用相似的稀疏率句号。

生成长视频之际，未经再作调优的原本模型，展现出明显的质量退化，特别是在视频长度扩展至4倍之时。

尽管于2倍长度外推之际性能得以提高，然而在此之后其质量却出现恶化，这说明了扩展能力受限。 ·

空间稀疏注意力受到有限感受野的影响，时间稀疏注意力同样受到有限感受野的影响，另一方面，PA具有全局感受野，然而却未能捕捉时空相关性，进而导致质量下降。

有趣的是，PA在微调之后，视觉奖励有了很大程度的提高，这表明，其原始的稀疏模式，与预训练的注意力分布，是不一致的。

微调允许模型适应施加的注意力稀疏性，改善对齐和质量。

SANA把注意力替换成线性注意力，这需要大规模开展重新训练，而且在基于微调的视频长度扩展情形下失败了。

与之相较，经由径向注意力予以落实的质量程度等同于透过LoRA微调的密集注意力模型所达成的质量程度。甚至于在当下所设定的视频长度状况之下，相较于预训练模型而言，视觉奖励方面呈现出了亦步亦趋微微加高的态势。

径向注意力，因O(nlog n)复杂度，较原始密集注意力，提供了显著的推理加速，也提供了显著的训练加速，情况如表2所示，情况如图2所示。

生成视频，出现四倍长度的情况时，能够节省成本，节省的成本高达四点四倍，并且实现加速，加速的程度厉害到高达三点七倍，是关于推理方面的加速。

最关键的是，速度和成本降下来了，画质还没缩水。

在上面，径向注意力的PSNR值达到了27.3，这一数值跟原始模型大体保持一样；其视觉奖励分数是0.134，甚至比密集注意力的0.133略微高那么一小点。

不只是快：

径向注意力的「隐藏技能」

很多技术升级都需要重新训练模型，但径向注意力不需要。

它能够直接运用在事先训练好的模型中，借由简单的LoRA微调达成加速，。

存在一个关键优势，它属于径向注意力，是与预训练的特定任务LoRA无缝兼容，比如艺术风格迁移，这对于创作者而言极其友好。

在图8里所呈现的情况之下，把扩展长度LoRA跟现有的风格LoRA进行结合来运用，达成了长视频生成这件事，并且还将视觉质量给保留了下来。

研究团队还进行了观察，所观察到的是的，合并LoRA而生成的内容风格，此风格与原始LoRA存在着略微的不同。

这种差异，主要归因于，用于训练扩展长度LoRA的，相对较小的数据集，这可能引入，轻微的风格偏差，与风格LoRA相互作用。

在更为全面的数据集之上进行训练，针对长度扩展LoRA，预计这样做将会有助于缓解此问题。

曾经，生成时长为一分钟的AI视频，是众多中小团队所不敢想象的，如今，径向注意力使得这件事情具备了可行性。

往后，我们或许会瞧见更多由AI生成的长视频内容，诸如短视频平台的剧情号。

参考资料：

AI写作工具

AI办公助手

AI图像处理工具

AI视频生成工具

AI音乐音频工具

AIGC内容检测工具

AI法律助手

社媒账号

跨境电商获客工具

全球电商平台

币圈工具

海外app集合

刷到的AI短视频背后，你想象不到的算力成本有多高

相关文章推荐

取消回复欢迎你发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

刷到的AI短视频背后，你想象不到的算力成本有多高

相关文章推荐

取消回复 欢迎 你 发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

取消回复欢迎你发表评论: