立陶宛博主介绍动画领域生成式AI技术及相关工具

作者：每日干货分享

发布时间：2025-11-01 15:45:36 浏览量：42 0

人脸动画的整合语音合成，生成三维的人物运动，图像生成，视频生成，LLM 驱动的工具…… 一切都在这篇文章中。

互联网的一个重要内容来源已然是生成式AI，如今你能够看到AI生成的文本，AI生成的代码，AI生成的音频，AI生成的图像，还有AI生成的视频以及动画。今天我们要介绍的这篇文章源自立陶宛博主以及动画师，当中从层级方面介绍且分类了动画领域所使用的生成式AI技术，涵盖简要的介绍，伴随着示例，有着优缺点，还有相关工具。

他写道，作为一位动画制作者，我那时希望有这样一份资源，那是在一年前，当时因为仅可以自行在混乱的互联网上寻觅可能性以及不断出现的进展。

这一篇的目标读者当中涵盖着，任意一个对于这一领域有着兴趣的人，特别是那些不晓得怎样去应对AI领域里新技术发展情况的动画师以及创意人士。另外还需要加以说明的是，视频风格化尽管同样也属于相关技术，不过之于这一篇而言基本上是不会涉及到这一方面的。

本文的文章结构。

图像生成

有一种技术叫图像生成技术，它是利用AI模型来生成图像的技术，而用于这些AI模型训练的是静态图像。

将生成的图像用作素材

把任意AI应用所生成的静态图像，当作2D剪贴画、数字处理、拼贴等传统工作流程里的素材，或者当作其它AI工具的资源，像是提供给图像转视频工具来生成视频。除用作图像和素材来源外，这类技术还需依靠剪切和图像编辑等一些常用技能。

短片《and》里运用了数字剪贴画，以此把生成的AI图像进行动画化处理，其中的配音，同样是借助LLM依据脚本生成的。

视频链接：

优点：

缺点：

免费工具（任何生成图像模型或应用）：

插件和附加组件：

此外， face space 上还有一些免费的演示：

付费工具（任何生成图像模型或应用）：

注：动画制作使用的工具包括 After 、Moho、……

逐帧生成图像

这类技术使用生成式扩散图像模型，是以一种在相当程度上立足动画根源的精神来行动的。其生成动作序列采用逐帧方式，这恰似传统动画制作里的绘制再拍摄过程。存在一个关键要点，即这些模型生成每张图像时不存在时间或运动的概念，而是借由某种机制，或者各种应用，又或者扩展协助获取在一定程度上的动画，进而达成所谓的「时间一致性（）」。

这些技术所获取的动画常常会呈现出闪烁情形。即便诸多运用这些工具的用户会尽力清除此闪烁，然而动画师却会将这视作一种艺术形式，称作。

这领域最为常用的是，诸如等开源模型以及依靠它们搭建的工具，用户能够凭借公开的参数去配置它们，并且能够把它们运行于本地计算机之上，相比较而言，工具的模型未予以公开，且主要是针对图像生成所设计的，所以无法用以生成逐帧动画。

视频链接：

动画也能够运用予以创作，这儿面关联到图像转图像的工作流程，借由一些扭变（置换）把底层的视频输入转变为动画。视频作者：

用逐帧图像来制作动画通常需要混合使用以下工具：

一步到位的工具（文本转图像）

有一些新技术支撑直接通过文本和参数调配来生成动画：

在每一张生成出来的图像帧之上，逐步地实施参数插值操作，进而借此得到过渡动画，此处的参数涵盖任何跟模型关联的设定，像文本自身，或者是底层的种子，也就是隐空间游走。

编辑法，是一种创建动画过渡的方法，该方法通过逐渐改变权重来实现，这里应用了Depth以保持手部整体形状的一致性。

凭借图像到图像技术，把每张生成出的图像帧当作输入，以此来生成动画的后续帧，如此一来，在其他参数以及种子产生变化之际，同样能够生成看上去具备相似性的帧序列，致使这一过程通常经由中的「去噪强度」或者「强度调度」进行把控，起始帧能够是已存在的图片。

这是核心组件，它由大多数使用的动画实现，而技术是许多下列应用所依赖的，这种技术平衡很难，且很大程度取决于使用的采样器（噪声调度器）。

使用一张起始的图像，接着采用一个稍微有些不一样的，让它按照每一帧去变化成为其他的形态。

一步一步渐渐变换每一帧从而生成图像，随后再以其作为 I2I 循环的输入。2D 变换等同于简单的平移、旋转以及缩放。3D 技术会去设想一个于 3D 空间里移动的虚拟相机，这一般需要估算每帧所生成图像的 3D 深度，接着依据设想中的相机运动来开展变形处理。

想必你已然看过这般无限放大的动画，它的视觉效果这般棒，是由于其运用 SD 去持续构建新型细节。

运动合成的目标是「想象」后续生成帧之间会有的运动流，接着使用这个运动流来逐帧去执行变形处理，进而基于I2I循环注入有机的运动，这一般需要依赖在视频的运动估计（光流）上训练的AI模型，只不过程度上其关注的并非后续视频帧，而是后续生成帧（通过I2I循环），又或是使用某种混合方法。

其它技术包含图像修复技术，还有变形技术，二者搭配使用，采用多个处理步骤，甚至捕获模型训练过程的快照等先进技术。举个例子，有很多可供用户调控之处啊。

用 SD-CN 来制作，它运用了一种独特方法，该方法在生成帧之间能产生幻觉运动。起始图像仅仅是当作起点，不存在其他用途。

变换型技术（图像到图像）：

除此之外，能够运用某个源头的输入，以此来对生成的帧予以助力，进而得到动画结果：

存在这样一类方法，其范围十分广泛，那它们做法是什么呢？是要去利用输入视频啊，以此来混合以及影响生成的序列啦。而这些被用到的输入视频呢，它们一般又是被划分成多个帧的哟，其主要作用通常在于对现实视频搞风格化呀。在当下风格化跳舞视频以及表演热浪兴起这样的状况下呢，这类技术常常会被用于达成动漫造型以及性感体格呢。不过呢，你能够把任何东西当作输入，比如说你自己所创作动画的粗略的那仅有的一帧，又或者说是杂乱抽象的任何录像呀。在对这种定格动画技术以及替换动画技术进行模仿这一方面，这类技术具备广泛的可能性呢。

每一帧中，输入帧存在两种情况，其一为能够直接跟生成图像进行混合，过后再输入回到各个I2I循环里，其二是能够采取附加条件这种更高级的设定做法，例如。

结合条件化处理的混合模式进行搭配，左图呈现的是原视频。遮掩以及背景模糊是分别予以执行的，这和该项技术不存在关联。

视频里估计出的运动被称作「光流」，可以用每一帧上的运动向量来表示，这些运动向量指示着屏幕空间中每个像素的运动状况。当把变形工作流程里源视频的光流估计出来后，就能依据它对生成的帧进行变形，从而让生成的纹理在对象或相机移动之际也能够「粘黏」在对象上面。

此项技术搭配各种设置使用时，其混合模式支撑它，为获闪动更少结果，会增加某些内容，以使变形效果更佳，遮掩与背景模糊各自执行，和这项技术并无关联。

条件处理，是借助变形工作流程得以完成的，其也能够直接关联3D数据，如此便能够跳过一个环节，这个环节有可能造成模糊，能够直接于视频帧上完成处理。

举个例子，可以提供数据，通过虚拟3D场景直接提供，或者提供深度数据，而不是通过视频估计这些数据，这个视频或者是经过CG渲染的视频。这允许采用方法，采用最模块化的3D原生方法，采用最可控的3D原生方法；尤其是组合方法时，效果更佳，组合有助于时间一致性的方法时，效果更佳。

这或许是现有技术跟用于VFX的AI技术之间极具潜力的交叉领域，像下面视频所展示的那样：

有一种被广泛运用的工具，它也采用了这项技术，该技术能够对用于生成直接适配于特定情况的角色图像的过程进行简化以及自动化操作。在这个示例当中，运用手部骨架来生成深度以及法线贴图图像，最终获得最右侧的SD结果。（因为事实表明它不适用于仅存在手部的情形，所以最终被舍弃掉了。）

把所有这些技术组合到一块，好像有着无穷无尽的参数能够对动画的生成结果予以调整，这类似于模块化的音频制作。它要么能够借助关键帧来进行“调度”，并且运用这样的工具去绘制图形，要么能够和音频以及音乐产生关联，从而获得诸多随音频而变化的动画。只需要做到这样，你便能够利用帮你跳舞了。

优点：

缺点：

免费工具：

可在 A1111 webui 中使用的工具：

插件和附加组件：

付费工具：

（通常也依赖于 SD，但运行在「云」上，用起来也更简单）：

插件和附加组件：

市面上存在着诸多的应用，也有着不少工具，然而要是属于付费工具的话，大多是依据开源的代码。

注：最棒的情形是你具备充足的优良硬件，也就是 GPU，于本地运行这些工具。倘若没有，你亦可尝试运行在远程计算机上的、功能受限的免费服务，像 Colab。然而，Colab 上的笔记本同样能够运行在本地硬件上。

视频生成技术

采用在运动视频上训练得到的视频生成AI模型来运用这类技术，并且能够在神经网络层面通过实施时间压缩予以增强。

现如今，存在这样一个情况，这些模型具备一个共同的特性，那就是它们仅仅能够处理时长很短的视频片段，也就是几秒的时间，并且呢，它们还会受到 GPU 上可用视频内存的限制。然而，在这方面，发展的速度是非常快的，而且呢，能够采用一些办法，把多个生成的结果拼接成更长的视频。

视频生成模型

这是指使用从头构建和训练的模型来处理视频。

现今这类模型得出的结果常常晃动幅度极大、存在显著的AI印记、看上去怪异，类同于很早以前生成图像的AI模型，此领域的发展稍微滞后些，不过进展极为迅速，我个人觉得在静态图像生成上所获进展不会以同等比例在视频生成方面再现，原因是视频生成的难度要高得多。

叫 Paul 的人，所运用的 Gen - 2，只是凭借图像以及文本，促使 AI 生成的视频。

视频链接：

方面而言，动画与传统电影界限模糊，只要和现实有差异，一定程度能将其作为动画和视频艺术怪异新流派，目前就应看待这等技术做真实风格电影，仅觉其为新形式实验媒体，玩得开心哦！

能够一步到位的（文本转视频）工具，借助文本，生成全新的视频片段。

根据理论而言，这类技术存在着无限的可能性，前提是你能够把它描述出来，如同静态图像生成那般，如此便有可能将其用于直播表演，或者生成任何超现实以及风格化的内容。然而从实践的角度去审视，为了对视频模型进行训练，收集多样化且足够大的数据集要困难得多，所以仅仅依靠文本来设定生成条件，利用这些模型去实现利基的美学风格是相当困难的。

以这种方法来用，对创意工作的控制只能是很宽松的。当把它跟图像或者视频条件化处理也就是变形工作流程一块组合着用的时候，这种技术就会强大许多。

Kyle 做的动画生成测试，使用了的 Gen-2

运用文本，依据已存的图像或视频，开展更进一步的条件化处理，进行变形

有不少视频生成工具，能使你依据图像来生成视频，其方式有两种，一种是完全起始于你所规定的图像开展生成，另一种是把规定图像当作语义信息、构图以及颜色的大致参考。

人们时常会运用传统的静态图像模型去生成起始图像，而后再把该起始图像输入视频模型。

这里生成的每一段视频，都是以一张唱片封面当作起始图像，作者是Reel ，每个视频生成于此，起始图像为唱片封面，作者为Reel 。

视频链接：

类似于图像生成模型里的图像到图像进程，也存有将输入视频的信息嵌入至视频模型中的可能性，再添加上文本，使其生成（去噪）输出。

我并未理解这当中的具体进程，似乎此进程不仅能够在逐帧层面之上匹配输入视频片段，就像运用进行风格化处理那般，并且能够在整体层面以及运动层面予以匹配，和图像到图像生成进程相同，这个进程受到去噪强度的管控。

倘若运气佳且存在合适之物，你亦能够输入视频用以「启发」模型再度想象源视频里的运动，并且以全然不同的样式将其展现出来，借由 webui中的完成，运用了模式。

优点：

缺点：

免费工具：

插件和附加组件：

付费工具（有试用版）：

注意，存在这样一种情况，那就是最优情形为在本地运行这些工具时，你具备充足的优良硬件，也就是 GPU 。要是你的情况并非如此，没有充足优良硬件作为支撑，那便可以尝试运行处于远程计算机之上的、功能存在一定限制的免费服务，像 Colab 这样的，然而大多数免费或者试用服务，其所具备的功能都是有限的。

使用运动压缩增强的图像模型

随着日益流行起来，出现了一个新兴领域，这个新兴领域是在增强已有图像扩散模型时运用视频或「运动」压缩的，相比于采用逐帧技术生成的结果，其生成的结果更接近于原生视频模型，就像上面介绍的那样，这项技术有优势，有优势在于你还能够使用为等图像模型构建的工具，像社区创建的任何检查点模型、LoRA以及其它条件化处理工具。

你甚至有通过提供视频条件化处理的可能性，如同使用逐帧技术那般。社区仍在积极对这一技术进行实验。可用技术有的源于静态图像模型（比如遍历），也有的源于视频原生模型。

如下视频，是经过使用中去完结的动画，在这个过程当中，运用了多个有着差异的主题。

视频链接：

这种技术里的运动本身一般极为原始，仅仅是在视频片段中较为松散地插入对象以及流，这常常会让事物变形成别的模样，不过，这种技术具备更好的时间一致性，并且仍处在起步阶段，当场景十分抽象，不存在具体物体的时候，这种方法能够获取最好的结果。

优点：

缺点：

免费工具：

目前， (SD v1.5) 的实现一马当先：

付费工具：

整合语音合成的人脸动画

人们全都清楚，这是一项处于流行迷因背后的技术，你大概见过一个人物相对静止（相机或许在移动）唯有脸部在动着讲话，这大多是运用了AI人脸动画化与语音合成工具的组合方式。

这组合了多个技术步骤，这组合了多个组件，其源图像多半是用图像生成AI制作的，其源图像也可以用任何带有人脸的图像，语音是根据文本生成的，语音根据所选任务的音色进行了条件化处理，然后用另一个工具合成与音频唇形同步的人脸动画，这另一个工具是工具包中的某个模型，这合成通常只生成图像中脸部和头部区域的运动，使用预训练的数字化身能让身体动起来。

视频链接：

作者在发布热门视频之前，已经发布了一篇分步教程，

优点：

缺点：

免费工具：

你同样能够于网络上直接搜寻出文本转语音服务，数量多得无法计算，然而效果大多比不上。

关于全脸动画化，就我所了解的，当下只有一些付费的应用给出了试用版本，并且使用受到很大限制。

付费工具（有试用版）：

人脸动画制作（通常会搭配语音合成）：

搜索「D-ID 替代品」就能找到很多。

生成三维的人物运动

这是一项针对于 3D 人物去合成运动的技术，这类技术能够被应用在 3D 动画电影、视频游戏或者其它的 3D 交互应用方面，恰似图像以及视频领域那般，新兴的 AI 工具使得人能够经由文本对人物的运动予以描述，除此之外，一些工具还能够依据极少的关键姿势去构建运动或者于交互环境里实时动态地生成动画。