基于Diffusion Model与Controlnet的阿里全民舞王及视频生成技术应用解析

作者：每日干货分享

发布时间：2025-11-08 08:17:30 浏览量：1 0

自然是存在着一些外延方面的运用，比如说近期相当热门的阿里所推出的“全民舞王”，其底层是依托于Model，并且还结合了诸如此类的其他技术，后边的内容也会提及到的。

2.视频到视频的生成

平常一般被划分成如此的类别，风格迁移的那种类别，视频内部所的替换类别，局部进行重绘的类别，视频借助AI达成高清化的类别。

如的人物CG替换：

的视频风格转换

所涉及的技术当中，包括了视频序列帧的生成，包括视频序列帧的处理，包含视频风格迁移之中的Lora，涵盖视频放大这一内容，还有面部修复这些方面等。

视频换脸

常见的存在着、等等。所关联涉及到的技术涵盖了：人脸进行检测操作，特征采取提取处理，人脸实施转换行为，进行强化优化等。

3.数字人类

以D-iD作为代表，借由人脸检测Face，借助语音克隆TTS，依靠口型同步Lip sync技术等组合来达成。

4.视频编辑类型

素材匹配

依据你所给出定的主题或者需求，能够经由搜寻现有的素材予以拼接成一个完整的视频。我们平常在剪辑时最为常用的剪映便是那其中的一种，能够在线进行素材搜索以匹配你的文本所需，。

关键部分剪辑

把长视频转变成所需的短视频，这适用于访谈节目类，其中涉及的技术，可能涵盖运用和去剖析视频内容，辨别出关键片段，之后运用去剪辑以及组装这些片段，进而形成短视频。

视频高清化

视频质量的提升，是借助超分算法来达成的，是依靠降噪算法来实现的，是凭借插帧等功能来达成的。

生成式AI视频技术

能够让大家有所感受的是，上述那些AI视频的应用呈现出各种各样的形式，然而其底层的技术无非就是以下这三种，分别是GAN，Model，还有这两年在大模型领域非常火爆的架构。

当然也是包含着变分自编码器（，VAE）以及其前身DDPM（模型）的，我们于此处并不进行详细的展开，主要是以通俗的语言去介绍前面的三种。

1.生成式对抗网络 GAN

照其名称所表达的意思来看，GAN涵盖一个生成器以及一个判别器，生成器如同一位画家，依据文字描述竭尽全力去绘制出仿若真实的图像，而判别器如同一个鉴定师，奋力去辨别哪些画作是真实的，哪些是生成器所绘制的，两者持续展开竞争，生成器愈发擅长绘制出逼真的图像，判别器愈发聪慧地分辨真，最终达成较为逼真的图像生成。

"是不是很像小时候老师拿着戒尺在旁边指导你学习"

GAN也同时存在一些短板：

失实，相较于扩散模型所生成的图像，GAN常常存在更多的伪影以及失实情况。

训练稳定性方面，GAN的训练进程涵盖一个生成器与一个判别器的对抗进程，这会致使训练不稳定，以及调优存在困难。与之相较，扩散模型的训练进程更为稳定，鉴于其并不依赖对抗训练。

多样性方面，相较于GAN，扩散模型在开展图像生成工作时，体现出更高的多样性，这表明其能够生成更为丰富且多变的图像，不过分依赖训练数据集中的特定样式。

在大约2020年前后的时候，扩散模型于学术界以及工业界开始获取到更多的关注，特别是在它们于图像生成的各个层面展现出突出表现之际。

但这并不能表明GAN已然彻底过时，在风格迁移领域，它得到了广泛的探索，在超分方面，同样也得到了广泛的应用。

2.扩散模型 Model

扩散步骤，对于马尔可夫链而言，其被相关理论予以定义，该理论的灵感源于非平衡热力学，通过此理论，先是缓慢地把随机噪声添加至数据里，以此为过程奠基，之后将逆向扩散过程进行学习，目的是以便能够从噪声当中构造获取所需的数据样本。

有种略微容易理解的说法，扩散模型运行的样式，雷同于雕刻匠，起始于一块表面粗糙的石头，或者若是在我们所举的实例里，就是一张模糊且无序的图像伊始进行，而后逐步地精细加工以及作出调整，一直到塑造出一个精致的雕塑，也就是一幅清晰且富有意义的图像为止。

对于那我们目前所熟知的、名为Pika的事物，实际上都是基于模型的，然而其中的细节又存在着不同之处，有关这两个产品，存在着以下两种技术架构：

Pika - Per Frame

于“Per Frame”架构里头，扩散模型针对视频里的每一帧数作单独处理，恰似它们是独立的图片那般。

这种方式所具备的优势体现于其能够确保每一幅帧的图像品质状况，却是没有办法对视频里头的时间连贯性以及动态变化情形予以有效捕捉，原因在于每一幅帧都是单独进行处理的。

我们看到，Pika产生早年生成视频存在些“糊”现象，或许跟这个有关，因而会损耗一定精准度。

- Per Clip

针对 “Per Clip” 架构，所采用的方式是，把整个视频片段，当作一个单一的实体，进而进行处理。

采用这种方法时，扩散模型对视频里帧与帧之间的时间联系，及连贯性予以了考量。

其具备的优势在于有着更强的能力去捕捉以及生成视频那与时间相关的动态情况，这里面包含着运动方面还有行为方面的连贯性，它还能更完整地将训练视频数据的精度进行保留。

可是，“Per Clip”这种方法，或许会需要更为复杂的模型以及更多的计算资源，由于它得去应对整个视频片段里的时间依赖性。

相较于Pika的Per Frame架构，Per Clip能更完整地将训练视频素材的信息予以保留，在成本较高之际天花板相对也较高。，。

因扩散模型自身属于计算密集型，故而在生成长视频之际，这般计算负担会迅猛增加，而且时间一致性亦是对扩散模型一个不小的考验。

架构尤其擅长去应对长序列之数据，这对于生成长视频来讲是一项重要之优势，它们能够更有利地去理解与将视频内容以时间维度维持连贯性。

3.架构（LLM架构）

在语言模型那儿，借助对大量文本予以分析，以此来学习语言方面的规则，还有结构，紧接着凭借概率去推演出后续的文本。

我们把这种架构用于图像生成之际，跟扩散模型从混乱里创造出秩序与意义不同，在图像生成方面的应用恰似学习并模仿视觉世界的“语言”。比如说，它会研习颜色、形状以及对象在视觉上怎样组合与交互，接着运用这些信息去生成新的图像。

架构具备其与众不同的优势，其中涵盖了清楚明晰的密度建模，以及更为稳定不变的训练过程。其可以借助帧与帧之间所存在的关联，进而生成连贯起来且自然的视频内容。

除此以外，Model当前所能碰到的最大的模型，其参数规模仅仅只有7至8个，然而，该模型的最大可能性已然达到了某种级别，这完全处于两个量级之上。

然而，自架构存在着挑战，这挑战包含计算资源方面的，训练数据量方面的，以及时间方面的。和扩散模型相比较而言，它所需的模型参数更多，针对计算资源以及数据集这两者的需求相对来说更高一些。

于是乎，在最开始的时候，算力以及数据量处于紧凑状态时期，架构生成视频或者图像这种情况，并未获得充分的探索及应用。

AI视频外延技术及应用

“照片跳舞”——

基于扩散模型+相关等技术

技术概述：网络以多帧噪声当作初始输入起始，运用基于(SD)设计的去噪UNet结构，和我们所熟知的相类同，又联合类似的姿势控制以及一致性优化等技术。

网络核心包括三个关键部分：

1、，负责编码参考图像中角色的外观特征，确保视觉一致性。

2、Pose，它被用来对运动控制信号实施编码，借此达成角色动作的精准控制。

Layer，它对时间序列信息予以处理，确保角色运动于连续帧之间具备流畅性和自然性。这三个组件相互结合，致使网络能够生成在视觉方面保持一致、在动作方面可以控制且在时间上连贯的动画角色。

“真人视频转化为动漫”——

基础模型也是基于 Model，另外结合了风格迁移。

首先进行第一步，此步骤是用来提取控制通道的，将其作为用以制作初始原始动画帧的基础，。

第二步是Raw - LCM，它属于工作流的核心部分，于此核心主要被用于对主要的原始动画展开渲染。

第三步是，LCM，它被用于进一步增强原始动画，它要用来添加细节，它还要进行放大且细化。

最后，是 Face Fix - LCM，它专门被用于改善经细化工作流处理过后情况仍旧不尽如人意的面部图像。

“AI视频换脸”——

就总体而言，换脸主要是分成以下这三个过程，即人脸检测，特征提取，人脸转换，后处理。

AI视频进行脸部替换的技术，一般被称作“深度伪造”，它构建于深度学习之上，尤其指运用了像GAN（生成对抗网络）或者自编码器一类的模型。鉴于这项技术存在着较大的使用风险，所以不会在此处进行细致的讲解。

AI视频技术展望

“未来的大一统？”——架构

不仅能看得见，而且能听得着

近期发布了一个专注于视频生成的，它能够一站式生成视频，它也能够一站式生成音频，它还支持更长的视频生成，它对现有视频生成中比较普遍的动作一致性提供了很好的解决方案，尤其是大范围的连贯性。

不同于绝大多数视频领域所运用的模型，未行经的路线，而是顺着架构予以开发，把多个视频生成功能整合于单个 LLM （大语言模型架构）里，证实了除有卓越的文本生成能力之外，且在视频生成方面具备极大潜力。另外还能够同时生成声音，并且支持借助语言进行控制来修改视频。

的小熊打鼓（含声音）

模型参数规模最大的呢也就七到八个，然而模型所达到的最大程度是可能已经抵达相应等级的。在语言模型的范畴当中呢，几家大型公司耗费了五年的时间，投入了几百亿美元，才把语言模型塑造到如今这样的模式规模，并且呀，伴随着模型的规模不断变大，大型模型的架构经费也是成倍地往上涨的这般情况。谷歌的科学家蒋路是这么讲的。

从本质层面来讲，基于大语言模型架构所构建的视频模型，依旧是一个“语言模型”，这是由于其训练过程以及模型框架并未发生改变。仅仅是输入的“语言”范畴扩展到了视觉等其他模态领域，而且这些模态同样能够以离散化的方式被表示成符号。

以前，资源、算力、视频数据等多方面呈现出限制状态给我们带来影响，我们并未看到视频生成方面有杰出效果。然而近些年由于GPT致使大语言模型迅速发展起来，并且有资金给予支持。往后，“一站式”文本、图像、声音、视频的多模态大模型将会备受众人关注。

AI视频也即将迎来GPT时刻？

尤其需要留意的是，尽管它是当下最为热门的构架，是有着高可扩展以及可并行特性的神经网络架构。然而其中全注意力机制的记忆需求，和输入序列的长度呈现二次方的关系。在处理视频这类高维信号的时候，这样的缩放会致使成本过高。

因此，有研究者提出来了，窗口注意力潜在，也就是W.A.L.T，这是一种基于潜在视频扩散模型，即LVDM的方法。也可以说是：

与 Model并存

李飞飞老师及其受教学生所参与合作的项目是WALT，WALT建立于，然而也运用了。这无疑是将扩散模型的长处以及的强劲能力融合在一起了。

在这样的结构里头，扩散模型承担着处理视频图像生成以及质量细节的任务，然而，它借助自身的注意力机制去优化序列之间的关联性与一致性。

如此这般的结合造就了视频不但于视觉层面上愈发逼真，并且在动作过渡方面也更为平滑以及自然。这般一来，接下来1至2年极有可能是同Model并存的一种状况。

AI视频技术面临的挑战

于AI视频技术范畴之内，AI视频颇为有名的创作者@闲人一坤，提出了若干关键的挑战。

最先，生成视频的清晰程度得要进一步予以提升，从而达成更高的视觉品质。其次，维持视频里的人物的一致性是个难题，这关联到对人物特性以及动作的精准捕捉还有再现。最后，AI视频的可控性还有待于增强，尤其是于三维空间中的调整才能，当前的技术大多局限于二维的微小调整，没办法有效地在Z轴维度予以调整。这些挑战点明了AI视频技术发展过程中需要予以关注以及改进的关键范畴。

终了，亦冀望AI视频的发展能够持续突破当下的限制，给创作者带去更多的灵感以及更为丰富浩瀚的可能性。

让我们一起期待AI视频的GPT时刻到来！

欢迎加入这个星球，见证硅基时代发展↓

点个“在看”，再走吧