阿里云通义实验室WAN 2.2 S2V:免费生成带音频AI视频,告别付费谷歌Veo3时代
长久以来,开源社区始终在寻觅一个能够同时创立音频的视频生成模型。我觉得当下已然到了该告别的时候,跟谷歌Veo3说拜拜,它是那个唯一能够生成带有音频视频的人工智能选项,然而它却是需要付费的。现今我们拥有了WAN 2.2 S2V,它能够免费为你达成这一目的!
出自阿里云通义实验室的WAN - S2V,能够产出附有音频的AI视频,是的,你没有听错,这是确切无疑的。
这不单单是说话之人的头,它更近似于电影制作里预可视化工具所期望达成的成效,即从一张图片、一段音频以及一个文本描述去生成长且极具表现力的场景,输出并非只是移动,而是表演。
想法很简单:
你给WAN-S2V:
一则画面(此为你的角色),一段声响(讲话、歌唱之类),一条文字提示(像是:“一名男子顺着铁路前行,饱含情绪地唱着歌,火车从其身旁驶过”) 。
它会给你返回一个视频,视频里啥都是动的,面部是动的,四肢是动的,就连相机本身也是动的。它能记住角色的表情,会依据环境做出反应,还会像小电影场景那般演绎出来。
1、这里有什么不同?
多数模型单单聚焦于微观方面的管控,它们仅仅是同步嘴唇的动作,WAN-S2V固然也是依照这般去做,然而它并不局限于此,它把工作划分成:
这种分离是有效果的,因为文本在时间方面状况欠佳,然而在上下文方面表现良好,音频在节拍方面不错,可是没法向你呈现“低角度戏剧性镜头”具体是何种模样,二者组合到一块,成效挺好的。
2、Wan S2V内部结构

WAN-S2V的核心,是一个大视频模型,这个大视频模型,他们称作WAN-14B 。
它属于扩散型模型,所以它借助从带有噪声的视频数据起始,随后一步步开展清理工作的方式来实现学习,运用的是经典的去除噪音办法,不过存在一个转变之处,即它不但在视频方面展开训练,还在相互对准的图像、音频以及提示类别上开展训练,该模型依据这三个要素来判定让像素怎样发生移动。
音频是经过处理的,它能够提取节奏以及情感基调,并非向模型输入原始波形,它会逐帧压缩音频去适配视频标记,这便是嘴唇和手保持同步的缘由。
对于长时间播放的视频,他们运用了一种被称作的技术,基本上,它会开展压缩运动历史的操作,如此一来模型便能够记住先前发生的状况,包括角色的具体身份究竟是什么,在上一个场景当中到底做了些啥,火车移动的速度到底有多快 。这对它在剪辑环节之间维持一致性能起到助力作用,恰似实打实的电影场景那般。
3、数据游戏
存在着一个主要优势,他们并非仅仅在演讲者的头上展开训练,WAN-S2V从诸如开放数据集里获取数据,还增添了需手动策划的场景是包含在船上唱歌,在戏剧般的环境中进行表演,以及多个角色之间进行互动 。
他们对数据进行严格过滤,将带有任何模糊的手或者脸、不同步的音频,甚至遮挡脸部字幕之处舍弃掉,以持续跟踪身体姿态,保证脸部始终处于可见状态,并且甚至运用美学评分致使内容变得精致,此流程比人们所想象的更为重要。
4、性能
不是所有都关乎数字,然而数字的确有着重要之处。在几乎全部关键指标方面,WAN - S2V相比其他模型都更具优势:

但是,它并非毫无瑕疵。于手部动作范畴而言,EMO2凭借其预先生成的动作序列依旧取得胜利。然而,鉴于它是在缺乏诸多手工工程步骤的情景下端到端得以完成的,WAN-S2V在该方面的表现亦是可圈可点的。
5、使用案例
倘若你对视频生成怀有兴趣,那你便会晓得,大多数的演示,在尝试超出5秒之际,就会产生崩溃状况。而WAN - S2V并非如此 。
打算从自拍以及一首歌生成音乐视频吗,完成了。想让一个角色依照电影般的摄像机移动方式去演绎剧本吗,可以做到。想要拼接多个视频场景,并且同时保持相同的角色以及动作风格吗,它也能够做到。
这个模型,是朝着更具生产就绪状态迈进的一步,并非仅仅用于研究幻灯片,而是有着真正能够实际使用的输出。
你可以从这里使用这个模型。
6、结束语
WAN - S2V并非是AI视频最终得以确定的答案,不过然而它明显是处于朝着正确大致方向而行的趋向之中的。它具备把长视频予以处理的能力,能够让身份维持不变,而且实际上让人感觉它仿佛对场景有着一种“理解”之意,确实如此,这无疑是一个幅度极大的转变。要是你正在进行任何有关AI视频、虚拟形象或者创意工具这方面的构建工作,那么这个模型是值得你去深入下一番研究功夫的。
倘若别的什么都不存在,它最终告别了说话人头导致的困境。单单基于这一点,它就具备了值得郑重看待的价值。
原文链接:Wan S2V开源视频生成模型 - 汇智网

欢迎 你 发表评论: