全民玩梗狂欢:AI视频领域中美两大明星产品的惊艳表现
全民玩梗的狂欢,再一次在 AI 视频领域上演。
最大的时代红利,归属今年四季度发布的产品,是中美两大明星产品有,其一为Sora 2,另一个是阿里的Wan2.5 - 。
其中,Sora 2登场,堪称一场教科书级营销战役,熟悉的邀请码机制再次发挥作用,用户为获入场券,除购买GPT会员外,还在二手平台花几十美金买邀请码,更妙的是,它将自身变为AI版抖音,用户上传一张照片,就能生成自己与奥特曼对话的魔性视频,这种让用户成主角的设计,使Sora App首周下载量直冲62.7万次,甚至超过当年的
大洋彼岸,Wan2.5 -以别样形式在诸多社交媒体引发刷屏效应,一夜之间,抖音和小红书上的AI小猫集体开口说「我爱妈妈」,随后开始烹制三菜一汤等待主人下班,画面里的光线、格局、小猫表情极细腻,令人惊叹,甚至炒菜时锅气与油烟这般细节也全然到位 。
能够讲,恰恰是这两个大模型的现身,使得AI视频在一夜之间,由技术领域极客所专属,转变为全民性的热潮。
那么,这一回AI视频在2025年实现破圈的关键究竟是什么呢,Wan2.5以及在内许许多多的最新模型到底做对了什么呢,与此同时,此次的AI视频浪潮会持续兴盛多长时间呢?
某种程度上,这一回AI视频模型热流,恰是大模型落地自技术突破至改变世界给出的标准答案样本,。
01
AI 视频为什么又火了
Wan2.5的爆发不是偶然的,Sora 2的爆发也不是偶然的,它们的爆发是技术积累到一定程度之后所产生的必然结果 。
要理解这次AI视频的爆发,就需要先看懂,历史上曾经是拥有三次兴起以及出现过两次衰落的情况。,
在2022 - 2023年这段期间,行业出现了第一次爆发,彼时,诸多模型依靠U - Net、DDPM等经典生成架构,借由以文生图,使得人们首次见识到了AI创作的潜力,这些模型有DALL - E 2()、(AI)、Gen - 2()、万相1.0 。
但不长时间立刻,这些模型就凭借着六指怪、表情呈现呆板此类问题而被喷至登上热搜。过后模型在2024年前后,进入到一个阶段,借助采用DiT、Flow等新型技术,联合视觉语言模型也就是VLM的图像描述本领,生成更为逼真的图片,使得图能生出视频成为一种可能,在这一阶段,名为Sora的、可灵1.0/1.6、海螺01、Flux 1.1、万相2.0/2.1依次纷纷走上台前。处在这一阶段,由AI生成的视频,仍然有着时间短暂的问题,存在音画不同步的状况,还具备无法执行复杂动作的毛病。
直到二千零二十五年,伴随大语言模型与扩散模型的深度融合,人工智能视频迎来了质的跨越,通过引入视觉思维链,模型从纯粹的视觉渲染转变为任务导向的智能决策,不但能支持多模态交互,还能化解复杂的视觉加语言任务,谷歌的二点零Flash、生成图像的GPT - 4o、可灵二点零、Veo 3、一点零、豆包、万相二点二、谷歌的Nano相继迅速走红。
四年的时间里,模型呈现出各种各样的变化,然而每一次,AI视觉产品火爆出圈的背后,都离不开两大方面取得了进步:
门槛降低以及效果提升。
早期,以SD为代表的工具是典型的极客专属,CFG scale数值要反复调试,数十个节点的连接逻辑能劝退90%的用户,生成内容更是阴间赛博风,除了P站上粗制滥造的成人内容,几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。
反过来观察当下热门的模型,不管是打算制作AI时代抖音的Sora 2,还是在社交媒体上引发刷屏现象的Wan2.5 -,它们都触及到了同一个关键要点:在具备高质量的情形下,将门槛降低到使得人人都能够使用 。
首先,是针对过去AI模型的赛博审丑,Wan2.5 - 通过人类反馈的强化学习,也就是RLHF,将用户对画面质感的反馈用于优化模型,继而,把用户对动态效果的反馈用于优化模型,然后,把用户对指令匹配度的反馈用于优化模型,最终,彻底摆脱丑且诡异的标签。
若要实现上述效果,用户无需知晓任何技术,只需将自己脑海里的画面,借助一段简洁的提示词表述出来,便可生成惟妙惟肖的视频。
比如,这是一个使用 Wan2.5- 生成的高赞视频。
有一个年轻白人男子,他站在树林当中,阳光透过树叶,在他发丝之上形成金色光晕,此时是黄昏时分,光线呈现逆光、侧光、柔光,具备高对比度 ,所取的景别为中景 ,采用中心构图 ,有一个干净的单人镜头且画面是暖色调 ,他身着浅色衬衫 ,微风轻拂,使得他的头发和衣领随风而动 ,光线也随着他的动作在脸上流动 ,背景虚化 ,远处有着斑驳的光影以及柔和的树影 ,镜头聚焦于他微微抬起的目光 ,其眼神清澈还带有情绪 。
视频链接:

能看到,画面里人物的神态,人物的动作很自然,空气中所有尘埃,树林里所有光线都特别还原,把右下角的logo去掉,基本没法分辨是不是实拍。
基于此,我们增添些难度,让画面更加复杂,将主体变为有着精细毛发细节的布偶猫,接着加入动作、神态以及语调的抑扬顿挫:
在一间奢华客厅里,有一只雍容华贵的布偶猫,它坐在一张王座般的猫爬架上,电影感仰拍镜头让主体显得很有权势,它用居高临下、充满审判意味的蓝色眼睛俯视着镜头,它缓缓抬起一只毛茸茸的爪子,以一种极度鄙视的表情指向观众,质问说:「嗯?那我再问你,我生成视频的音频不自然吗?回答我!Look in my eyes!Tell me, why?Why baby why?」。戏剧性的华丽光影,浅景深,超精细的毛发细节,照片级真实感。
呈现出多个升级版,要求多方面同时进行,然而整体画面质量未曾降低,就连环境里光线的角度,光源反射的细节都完美地进行了还原。
当然,这种具备低门槛以及高质量的情况,仅仅是Wan2.5 - 火起来所依托的基础,于用户体验的诸多细节方面,Wan2.5 - 有开展更多探索以及进行更多尝试。
02
如何定义体验 ready 的视频模型
AI 模型的技术参数再漂亮,最终要落地到用户体验上。
以往诸多AI工具都存在着碎片化的问题,文生图是一种模型,文生视频是一种工具,图生视频还得更换平台,用户要是想达成一个创意,就要在多个工具之间反复进行切换,生成、调整、合成这些繁琐的步骤,早就耗尽了创作热情。
何况,以往制作一条电商营销视频时,用户得先寻觅模型来生成画面,接着运用另外一个工具去做音频,最终借助第三方软件予以合成,这不仅耗费时间,而且极易出现音画错位的状况。最终,为了节省拍摄成本,不得不又去招聘一位成本更高的算法工程师来搭建业务的 。
.ai 的案例极具代表性,有一家公司于 2023 年 4 月成立,其专注于图像以及视频生成,该公司在全球的活跃用户超过 2500 万,在 AIGC web 产品方面稳居 TOP 50,他们采访了一位澳大利亚理发师,这位理发师从小的梦想是成为画家,然而却因为生活的缘故拿起了剪刀,现在他每天最为开心的时刻便是下班之时使用.ai(海艺)进行创作,以往借助画笔无法表达的想法,如今通过文字便可生成画面,而且是 “海艺成了安放灵魂和梦想的地方” 。
之所以选择海艺,是因为海艺集成了万像模型,比如像 Wan2.5- 这种,它解决了过去AI视觉生成时用户体验割裂的痛点。
当处于 Wan2.5- 时,在生成时长为10秒的视频之际,系统会自动去匹配人声、自动去匹配环境音效以及自动去匹配背景音乐,甚至能够使得小猫的口型和「我爱妈妈」的台词相互对应上,整个过程完全不需要人工进行干预。
在这背后,存在着Wan2.5-的统一框架设计,Wan2.5-不像SD那样进行独立模型的堆砌,而是将文本、图像、视频、音频的理解与生成放置于同一个框架内,底层运用文本分词器、图像/视频编码器、音频编码器分别对不同类型的信息予以拆解,核心以多模态充当大脑,达成跨模态信息的深度融合,输出层直接对文本、图像、视频、音频的生成提供支持,凭借多模态对齐能力,用户无需再于多个工具之间进行切换。
最为关键极为重要的一点是呀,凡是使用过人工智能的人呀,都清楚知晓一个情形哪,就是一次性去生成令人觉得满意合意的内容呀,那几乎都是不太可能没法子做到的呢。不过对于图像同时还有视频进行二次编辑呀,则在很多时候常常往往是非常麻烦困难的哟。Wan2.5 -在有关此这件事情的这一方面呀,做出了具有指向针对的去进行优化处理啦:
在视频方面,Wan2.5 增强了复杂指令精准执行的能力,它能够理解运镜语言,像推、拉、摇、移这些,还能理解连续变化指令,并且无需进行多次调整。关于细节层面进行了优化,强化了图生视频的元素 ID 一致性,也就是在生成过程当中要保持人物、物体等核心元素不丢失的情况,同时它还支持通用音频驱动视频生成。
今年,在生图方面,AI图片生成质量在行业内基本得到解决,然而, 在图片上加文字,特别是中文这种需求,很容易生成难以辨认的乱码,更不用说生成图表了。Wan2.5 -却恰好相反,它不仅支持稳定生成中文、英文 等文字,甚至还能直接生成图表,并且,通过文字指令一键换装以及改风格,也都不在话下,不仅如此,编辑时核心元素不会发生变形 。
正是对于这些体验细节进行的打磨,使得海艺平台之上的用户,借助Wan2.5-生成的视频数量突破了500万条,创意的表达如同说话那般自然。
03
技术到商业,如何加速
有着技术就绪、体验就绪状态的人工智能产品数量不少,不过它们当中的很多,现下都处于那种仅仅是受到好评,却没有实际销量的阶段 。
Wan2.5- 的聪慧所在之处是,它于做好产品之际,还营建了一整套完备的商业化体系。
在这套完整商业化体系的最底层,有着阿里云的算力支持,它能与模型软硬一体从而形成生态护城河。中间层是像阿里云百炼这样的模型开发服务平台,它使得用户一键部署大模型不再是难以实现之事。最顶层的模型侧那边,还给予了用户充足的选择。

拿 Wan2.5 - 给当例子,不同用户存在需求差异,有人仅是想尝试新鲜做个五秒短镜头,有人打算制作十秒的抖音热门爆款,有人追求 1080P 电影级画质,有人认为 720P 足够用。
万二点五进行选择,提供给了五秒、十秒的选择时间,而至于画质方面,给出了四百八十P、七百二十P、一千零八十P这三种截然不同的选择,使用者因依据预算以及用途进而能够自由自在地转变切换 ?
在这个基础之上,Wan2.5 - 并未 自身对于商业化以及算清成本账的那种 。于最近的飞天发布之时,Wan2.5 - 正式宣告商业化,并且给出了清晰且足够优惠的收费标准:
国内,1080P 的情况下是 1 元每秒,720P 的情形为 0.6 元每秒,480P 的状况是 0.3 元每秒;
海外,1080P的价格是每秒0.15美元,720P的价格是每秒0.1美元,480P的价格是每秒0.05美元。
形成对比,Sora 2生成视频,每秒需要0.1至0.5美元,国内的可灵2.0,收费标准是每秒0.5元,Wan2.5属于同等内容质量的产品,定价当属极具吸引力的那一档。
而这种定价方式精准击中了不同用户的痛点:
对于短视频团队,对于广告公司等专业用户而言,清晰的定价这能够让其得以准确核算成本,这相比于 SD 免费然而需要自身承担服务器成本说更为划算,?
对于普通尝鲜的用户而言,按秒进行收费,这意味着花几块钱便能够试玩,不会因高昂的套餐费用而被吓跑。
通义万相的商业生态,初步取得了能运行成功的成果,而这个成果是建立在有数量可观并且种类多样的选择,以及有明确的定价标准之上的,这就是极其适配用来做优质展示的最好案例。
这是一家公司,它专注于并且主要致力于多模态AI生成,它还是平台型的那种公司,它也是全球范围内第一个把Wan2.5系列模型上线的平台 。
围绕怎样去将Wan2.5 -合理运用, 的应对举措极具智谋:它依据用户对于价格的敏感程度,依照分辨率、生成的时长、加速的程度进行梯度收费,除此之外,依据模型的差异,给出了分层的解决办法:
价格最低的区域范围在这儿:运用Wan2.2那具备快速推理特性的版本去达成那些预算受限制的用户群体的需求,。
Wan2.2开源模型经优化后,用于中间层,以此平衡成本与质量。
处于高端层级,运用快速版以及普通版的 Wan2.5,去服务那些对质量有着高要求的用户。
基于此,拓展了数字人业务,在对口型前提下,达成了更丰富的肢体动作以及表情控制,当前,借助Wan2.5生成的视频数量已突破1000万条。
以上仅为例外个体情况,依据云栖大会所公布宣布的数据来看,通义万相家族已经整合了10多种跟视觉方面创作相关的能力,总计生成了3.9亿张图片以及7000万个视频,进而达成成为国内属于一流的AI视觉创作工具这样的结果。
04
尾声
AI 视频的故事远没到结尾。
技术方面,当下的模型仍然存在不足,内容生成所需的时长并不够长久,细节表现不够精细,长视频所存在的一致性问题尚未全部得到解决……
但不能否认,Sora 2 的 AI Tik Tok 野心,让 AI 视觉生成跨过了技术到产品的鸿沟,Wan2.5- 的行业侧深耕,同样让 AI 视觉生成跨过了技术到产品的鸿沟。
在这个进程里,技术先进固然有着重要性,然而能够将技术转化成用户甘愿 、甘愿 for 的 ,使得行业切实 touch 到 SOP , ,user ,才是真正的 move。


欢迎 你 发表评论: