阿里云通义实验室WAN 2.2 S2V：免费生成带音频AI视频，告别付费谷歌Veo3时代

作者：每日干货分享

发布时间：2025-11-12 08:14:39 浏览量：40 0

长久以来，开源社区始终在寻觅一个能够同时创立音频的视频生成模型。我觉得当下已然到了该告别的时候，跟谷歌Veo3说拜拜，它是那个唯一能够生成带有音频视频的人工智能选项，然而它却是需要付费的。现今我们拥有了WAN 2.2 S2V，它能够免费为你达成这一目的！

出自阿里云通义实验室的WAN - S2V，能够产出附有音频的AI视频，是的，你没有听错，这是确切无疑的。

这不单单是说话之人的头，它更近似于电影制作里预可视化工具所期望达成的成效，即从一张图片、一段音频以及一个文本描述去生成长且极具表现力的场景，输出并非只是移动，而是表演。

想法很简单：

你给WAN-S2V：

一则画面（此为你的角色），一段声响（讲话、歌唱之类），一条文字提示（像是：“一名男子顺着铁路前行，饱含情绪地唱着歌，火车从其身旁驶过”）。

它会给你返回一个视频，视频里啥都是动的，面部是动的，四肢是动的，就连相机本身也是动的。它能记住角色的表情，会依据环境做出反应，还会像小电影场景那般演绎出来。

1、这里有什么不同？

多数模型单单聚焦于微观方面的管控，它们仅仅是同步嘴唇的动作，WAN-S2V固然也是依照这般去做，然而它并不局限于此，它把工作划分成：

这种分离是有效果的，因为文本在时间方面状况欠佳，然而在上下文方面表现良好，音频在节拍方面不错，可是没法向你呈现“低角度戏剧性镜头”具体是何种模样，二者组合到一块，成效挺好的。

2、Wan S2V内部结构

WAN-S2V的核心，是一个大视频模型，这个大视频模型，他们称作WAN-14B 。

它属于扩散型模型，所以它借助从带有噪声的视频数据起始，随后一步步开展清理工作的方式来实现学习，运用的是经典的去除噪音办法，不过存在一个转变之处，即它不但在视频方面展开训练，还在相互对准的图像、音频以及提示类别上开展训练，该模型依据这三个要素来判定让像素怎样发生移动。

音频是经过处理的，它能够提取节奏以及情感基调，并非向模型输入原始波形，它会逐帧压缩音频去适配视频标记，这便是嘴唇和手保持同步的缘由。

对于长时间播放的视频，他们运用了一种被称作的技术，基本上，它会开展压缩运动历史的操作，如此一来模型便能够记住先前发生的状况，包括角色的具体身份究竟是什么，在上一个场景当中到底做了些啥，火车移动的速度到底有多快。这对它在剪辑环节之间维持一致性能起到助力作用，恰似实打实的电影场景那般。

3、数据游戏

存在着一个主要优势，他们并非仅仅在演讲者的头上展开训练，WAN-S2V从诸如开放数据集里获取数据，还增添了需手动策划的场景是包含在船上唱歌，在戏剧般的环境中进行表演，以及多个角色之间进行互动。

他们对数据进行严格过滤，将带有任何模糊的手或者脸、不同步的音频，甚至遮挡脸部字幕之处舍弃掉，以持续跟踪身体姿态，保证脸部始终处于可见状态，并且甚至运用美学评分致使内容变得精致，此流程比人们所想象的更为重要。

4、性能

不是所有都关乎数字，然而数字的确有着重要之处。在几乎全部关键指标方面，WAN - S2V相比其他模型都更具优势：

但是，它并非毫无瑕疵。于手部动作范畴而言，EMO2凭借其预先生成的动作序列依旧取得胜利。然而，鉴于它是在缺乏诸多手工工程步骤的情景下端到端得以完成的，WAN-S2V在该方面的表现亦是可圈可点的。

5、使用案例

倘若你对视频生成怀有兴趣，那你便会晓得，大多数的演示，在尝试超出5秒之际，就会产生崩溃状况。而WAN - S2V并非如此。

打算从自拍以及一首歌生成音乐视频吗，完成了。想让一个角色依照电影般的摄像机移动方式去演绎剧本吗，可以做到。想要拼接多个视频场景，并且同时保持相同的角色以及动作风格吗，它也能够做到。

这个模型，是朝着更具生产就绪状态迈进的一步，并非仅仅用于研究幻灯片，而是有着真正能够实际使用的输出。

你可以从这里使用这个模型。

6、结束语

WAN - S2V并非是AI视频最终得以确定的答案，不过然而它明显是处于朝着正确大致方向而行的趋向之中的。它具备把长视频予以处理的能力，能够让身份维持不变，而且实际上让人感觉它仿佛对场景有着一种“理解”之意，确实如此，这无疑是一个幅度极大的转变。要是你正在进行任何有关AI视频、虚拟形象或者创意工具这方面的构建工作，那么这个模型是值得你去深入下一番研究功夫的。

倘若别的什么都不存在，它最终告别了说话人头导致的困境。单单基于这一点，它就具备了值得郑重看待的价值。

原文链接：Wan S2V开源视频生成模型 - 汇智网