全民玩梗狂欢：AI视频领域中美两大明星产品的惊艳表现

作者：每日干货分享

发布时间：2025-11-02 14:18:53 浏览量：30 0

全民玩梗的狂欢，再一次在 AI 视频领域上演。

最大的时代红利，归属今年四季度发布的产品，是中美两大明星产品有，其一为Sora 2，另一个是阿里的Wan2.5 - 。

其中，Sora 2登场，堪称一场教科书级营销战役，熟悉的邀请码机制再次发挥作用，用户为获入场券，除购买GPT会员外，还在二手平台花几十美金买邀请码，更妙的是，它将自身变为AI版抖音，用户上传一张照片，就能生成自己与奥特曼对话的魔性视频，这种让用户成主角的设计，使Sora App首周下载量直冲62.7万次，甚至超过当年的

大洋彼岸，Wan2.5 -以别样形式在诸多社交媒体引发刷屏效应，一夜之间，抖音和小红书上的AI小猫集体开口说「我爱妈妈」，随后开始烹制三菜一汤等待主人下班，画面里的光线、格局、小猫表情极细腻，令人惊叹，甚至炒菜时锅气与油烟这般细节也全然到位。

能够讲，恰恰是这两个大模型的现身，使得AI视频在一夜之间，由技术领域极客所专属，转变为全民性的热潮。

那么，这一回AI视频在2025年实现破圈的关键究竟是什么呢，Wan2.5以及在内许许多多的最新模型到底做对了什么呢，与此同时，此次的AI视频浪潮会持续兴盛多长时间呢？

某种程度上，这一回AI视频模型热流，恰是大模型落地自技术突破至改变世界给出的标准答案样本，。

AI 视频为什么又火了

Wan2.5的爆发不是偶然的，Sora 2的爆发也不是偶然的，它们的爆发是技术积累到一定程度之后所产生的必然结果。

要理解这次AI视频的爆发，就需要先看懂，历史上曾经是拥有三次兴起以及出现过两次衰落的情况。，

在2022 - 2023年这段期间，行业出现了第一次爆发，彼时，诸多模型依靠U - Net、DDPM等经典生成架构，借由以文生图，使得人们首次见识到了AI创作的潜力，这些模型有DALL - E 2（）、（AI）、Gen - 2（）、万相1.0 。

但不长时间立刻，这些模型就凭借着六指怪、表情呈现呆板此类问题而被喷至登上热搜。过后模型在2024年前后，进入到一个阶段，借助采用DiT、Flow等新型技术，联合视觉语言模型也就是VLM的图像描述本领，生成更为逼真的图片，使得图能生出视频成为一种可能，在这一阶段，名为Sora的、可灵1.0/1.6、海螺01、Flux 1.1、万相2.0/2.1依次纷纷走上台前。处在这一阶段，由AI生成的视频，仍然有着时间短暂的问题，存在音画不同步的状况，还具备无法执行复杂动作的毛病。

直到二千零二十五年，伴随大语言模型与扩散模型的深度融合，人工智能视频迎来了质的跨越，通过引入视觉思维链，模型从纯粹的视觉渲染转变为任务导向的智能决策，不但能支持多模态交互，还能化解复杂的视觉加语言任务，谷歌的二点零Flash、生成图像的GPT - 4o、可灵二点零、Veo 3、一点零、豆包、万相二点二、谷歌的Nano相继迅速走红。

四年的时间里，模型呈现出各种各样的变化，然而每一次，AI视觉产品火爆出圈的背后，都离不开两大方面取得了进步：

门槛降低以及效果提升。

早期，以SD为代表的工具是典型的极客专属，CFG scale数值要反复调试，数十个节点的连接逻辑能劝退90%的用户，生成内容更是阴间赛博风，除了P站上粗制滥造的成人内容，几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。

反过来观察当下热门的模型，不管是打算制作AI时代抖音的Sora 2，还是在社交媒体上引发刷屏现象的Wan2.5 -，它们都触及到了同一个关键要点：在具备高质量的情形下，将门槛降低到使得人人都能够使用。

首先，是针对过去AI模型的赛博审丑，Wan2.5 - 通过人类反馈的强化学习，也就是RLHF，将用户对画面质感的反馈用于优化模型，继而，把用户对动态效果的反馈用于优化模型，然后，把用户对指令匹配度的反馈用于优化模型，最终，彻底摆脱丑且诡异的标签。

若要实现上述效果，用户无需知晓任何技术，只需将自己脑海里的画面，借助一段简洁的提示词表述出来，便可生成惟妙惟肖的视频。

比如，这是一个使用 Wan2.5- 生成的高赞视频。

有一个年轻白人男子，他站在树林当中，阳光透过树叶，在他发丝之上形成金色光晕，此时是黄昏时分，光线呈现逆光、侧光、柔光，具备高对比度，所取的景别为中景，采用中心构图，有一个干净的单人镜头且画面是暖色调，他身着浅色衬衫，微风轻拂，使得他的头发和衣领随风而动，光线也随着他的动作在脸上流动，背景虚化，远处有着斑驳的光影以及柔和的树影，镜头聚焦于他微微抬起的目光，其眼神清澈还带有情绪。

视频链接：

能看到，画面里人物的神态，人物的动作很自然，空气中所有尘埃，树林里所有光线都特别还原，把右下角的logo去掉，基本没法分辨是不是实拍。

基于此，我们增添些难度，让画面更加复杂，将主体变为有着精细毛发细节的布偶猫，接着加入动作、神态以及语调的抑扬顿挫：

在一间奢华客厅里，有一只雍容华贵的布偶猫，它坐在一张王座般的猫爬架上，电影感仰拍镜头让主体显得很有权势，它用居高临下、充满审判意味的蓝色眼睛俯视着镜头，它缓缓抬起一只毛茸茸的爪子，以一种极度鄙视的表情指向观众，质问说：「嗯？那我再问你，我生成视频的音频不自然吗？回答我！Look in my eyes！Tell me, why？Why baby why？」。戏剧性的华丽光影，浅景深，超精细的毛发细节，照片级真实感。

呈现出多个升级版，要求多方面同时进行，然而整体画面质量未曾降低，就连环境里光线的角度，光源反射的细节都完美地进行了还原。

当然，这种具备低门槛以及高质量的情况，仅仅是Wan2.5 - 火起来所依托的基础，于用户体验的诸多细节方面，Wan2.5 - 有开展更多探索以及进行更多尝试。

如何定义体验 ready 的视频模型

AI 模型的技术参数再漂亮，最终要落地到用户体验上。

以往诸多AI工具都存在着碎片化的问题，文生图是一种模型，文生视频是一种工具，图生视频还得更换平台，用户要是想达成一个创意，就要在多个工具之间反复进行切换，生成、调整、合成这些繁琐的步骤，早就耗尽了创作热情。

何况，以往制作一条电商营销视频时，用户得先寻觅模型来生成画面，接着运用另外一个工具去做音频，最终借助第三方软件予以合成，这不仅耗费时间，而且极易出现音画错位的状况。最终，为了节省拍摄成本，不得不又去招聘一位成本更高的算法工程师来搭建业务的。

.ai 的案例极具代表性，有一家公司于 2023 年 4 月成立，其专注于图像以及视频生成，该公司在全球的活跃用户超过 2500 万，在 AIGC web 产品方面稳居 TOP 50，他们采访了一位澳大利亚理发师，这位理发师从小的梦想是成为画家，然而却因为生活的缘故拿起了剪刀，现在他每天最为开心的时刻便是下班之时使用.ai（海艺）进行创作，以往借助画笔无法表达的想法，如今通过文字便可生成画面，而且是 “海艺成了安放灵魂和梦想的地方” 。

之所以选择海艺，是因为海艺集成了万像模型，比如像 Wan2.5- 这种，它解决了过去AI视觉生成时用户体验割裂的痛点。

当处于 Wan2.5- 时，在生成时长为10秒的视频之际，系统会自动去匹配人声、自动去匹配环境音效以及自动去匹配背景音乐，甚至能够使得小猫的口型和「我爱妈妈」的台词相互对应上，整个过程完全不需要人工进行干预。

在这背后，存在着Wan2.5-的统一框架设计，Wan2.5-不像SD那样进行独立模型的堆砌，而是将文本、图像、视频、音频的理解与生成放置于同一个框架内，底层运用文本分词器、图像/视频编码器、音频编码器分别对不同类型的信息予以拆解，核心以多模态充当大脑，达成跨模态信息的深度融合，输出层直接对文本、图像、视频、音频的生成提供支持，凭借多模态对齐能力，用户无需再于多个工具之间进行切换。

最为关键极为重要的一点是呀，凡是使用过人工智能的人呀，都清楚知晓一个情形哪，就是一次性去生成令人觉得满意合意的内容呀，那几乎都是不太可能没法子做到的呢。不过对于图像同时还有视频进行二次编辑呀，则在很多时候常常往往是非常麻烦困难的哟。Wan2.5 -在有关此这件事情的这一方面呀，做出了具有指向针对的去进行优化处理啦：

在视频方面，Wan2.5 增强了复杂指令精准执行的能力，它能够理解运镜语言，像推、拉、摇、移这些，还能理解连续变化指令，并且无需进行多次调整。关于细节层面进行了优化，强化了图生视频的元素 ID 一致性，也就是在生成过程当中要保持人物、物体等核心元素不丢失的情况，同时它还支持通用音频驱动视频生成。

今年，在生图方面，AI图片生成质量在行业内基本得到解决，然而，在图片上加文字，特别是中文这种需求，很容易生成难以辨认的乱码，更不用说生成图表了。Wan2.5 -却恰好相反，它不仅支持稳定生成中文、英文等文字，甚至还能直接生成图表，并且，通过文字指令一键换装以及改风格,也都不在话下，不仅如此，编辑时核心元素不会发生变形。

正是对于这些体验细节进行的打磨，使得海艺平台之上的用户，借助Wan2.5-生成的视频数量突破了500万条，创意的表达如同说话那般自然。

技术到商业，如何加速

有着技术就绪、体验就绪状态的人工智能产品数量不少，不过它们当中的很多，现下都处于那种仅仅是受到好评，却没有实际销量的阶段。

Wan2.5- 的聪慧所在之处是，它于做好产品之际，还营建了一整套完备的商业化体系。

在这套完整商业化体系的最底层，有着阿里云的算力支持，它能与模型软硬一体从而形成生态护城河。中间层是像阿里云百炼这样的模型开发服务平台，它使得用户一键部署大模型不再是难以实现之事。最顶层的模型侧那边，还给予了用户充足的选择。