Stable Video Diffusion如何生成高质量视频新手教程
Stable Video Diffusion基础信息
Stable Video Diffusion是Stability AI公司推出的视频生成模型,它像从图像模型里长出的会动的翅膀,在Stable Diffusion图像生成技术基础上延伸而来,2023年底对外发布时,直接把AI视频生成的门槛往下拽了一大截,让普通用户也能靠文字或图片“变”出视频,它本质是个开源模型,代码扔在GitHub上,懂技术的能自己捣鼓到电脑里跑,不想麻烦的也能蹲官方网页版用,主打一个“想怎么玩就怎么玩”。
我第一次听说它是在AI技术论坛上,当时有人晒出用一张猫咪照片生成的3秒视频,猫咪尾巴甩动的弧度比我用AE调半天还自然,那会儿就觉得这玩意儿不简单,后来才知道它背后是Stability AI的大模型撑腰,难怪效果这么顶。
Stable Video Diffusion核心功能解析
文本生成视频是它的拿手好戏,你往输入框里敲“清晨的森林,阳光透过树叶洒在小溪上,蝴蝶在花丛中飞”,它就像拿到剧本的摄像师,咔咔给你拍出一段动态画面,我试过写“宇航员在火星上跳兔子舞”,虽然动作有点僵硬,但火星地表的质感和宇航员的宇航服细节,连我那挑剔的设计师朋友都点头了。

图像转视频更绝,拿张静态照片丢进去,它能给照片里的元素“注入灵魂”,上次我把奶奶年轻时的黑白照片上传,选了“轻微动态”模式,照片里的树叶慢慢摇晃,奶奶的头发丝仿佛被风吹动,奶奶看到视频时眼睛都红了,说像回到了当年拍照的那天。
它还能调视频参数,比如分辨率能选512x512、1024x576,帧率24、30帧随便挑,时长目前免费版最多生成4秒,想更长就得一段段拼,参数面板里的“Motion Bucket Id”像个调皮的开关,数值越高画面动得越疯,有次我调到200,结果视频里的小狗直接原地起飞,笑得我肚子疼。
Stable Video Diffusion产品定价情况
这模型目前走“开源+免费试用”路线,GitHub上的代码随便下,本地部署一分钱不用花,相当于白嫖一个视频生成器,但要是想用官方的网页端在线生成,就得看Stability AI的脸色了——目前网页版还在测试阶段,时不时开放试用名额,抢到名额的能免费生成几次,没抢到的只能干瞪眼。
听说后续可能会出付费套餐,比如按生成时长收费,或者搞订阅制,但具体多少钱、啥时候出,官方嘴严得很,问客服就回“敬请期待”,搞得我天天刷官网,跟等快递似的心急,所以现在想长期用,要么学技术本地部署,要么祈祷自己是天选之子能抢到试用名额。
Stable Video Diffusion适用场景推荐
创作者绝对离不开它,我有个做短视频的朋友,以前拍产品开箱要架相机、打光、剪辑,累得像条狗,现在他直接拍张产品照片,用Stable Video Diffusion生成10秒动态展示,配上解说就能发,一周多更了3条视频,粉丝涨得比春天的草还快。老师备课也能用,上次帮表妹做生物课课件,她要讲“细胞分裂”,手绘的图太死板,我用Stable Video Diffusion输入“动物细胞有丝分裂过程,染色体清晰可见”,生成3秒视频,染色体复制、分离的过程活灵活现,表妹说课上学生们眼睛都看直了,比课本插图好懂10倍。
普通人记录生活也合适,我把去年生日拍的蛋糕照片生成视频,蜡烛的火苗轻轻跳动,奶油上的水果像在对我笑,存到手机里,每次看都觉得那天的快乐又回来了,比单纯发照片有感觉多了,朋友圈点赞数创了历史新高。
Stable Video Diffusion使用注意要点
电脑配置得跟上,本地部署可不是闹着玩的,我刚开始用笔记本试,显卡是MX350,跑了半小时进度条一动不动,电脑烫得能煎鸡蛋,最后直接蓝屏,后来换了台式机,RTX 4070显卡,8G显存,生成4秒视频才用5分钟,显卡就像跑车的发动机,排量不够真跑不起来。
别上传敏感内容!上次有网友传了张带水印的明星照片,想生成视频发抖音,结果账号直接被封,Stability AI的反作弊系统比班主任还严,一旦检测到侵权或违规内容,轻则禁用账号,重则追究责任,咱可不能以身试法。
生成效果别抱太高期望,它虽然厉害,但偶尔也会抽风,比如把“猫追老鼠”生成“老鼠追猫”,或者人物手指多一根少一根,遇到这种情况别骂娘,多试几次,调整下文本描述,比如把“一只猫”改成“一只橘色胖猫,四肢健全”,成功率会高很多。
Stable Video Diffusion与同类工具对比
跟Runway ML比,它胜在免费开源,Runway ML操作简单,新手也能上手,但生成1分钟视频要几十美元,贵得能买两杯奶茶,Stable Video Diffusion本地部署不花钱,参数还能随便调,像给你一辆手动挡跑车,虽然难开但能玩出花样。

和Pika Labs比,它视频更长,Pika Labs生成的视频画面更流畅,像加了滤镜的电影,但最多只能生成3秒,想做个10秒视频得拼3段,Stable Video Diffusion能生成4秒,虽然只多1秒,但积少成多啊,而且支持图像转视频,Pika目前还没这功能。
对比DALL-E 3视频功能,它更自由,DALL-E 3视频得靠ChatGPT Plus调用,每月20美元订阅费,生成啥样全看AI心情,参数调不了,Stable Video Diffusion想改帧率改帧率,想调风格调风格,就像自己当导演,而不是给AI当提线木偶。
Stable Video Diffusion生成视频步骤教程
先准备好素材,文本描述或图像都行,我一般用文本,因为描述得越详细,生成效果越好,比如想生成“海边日落,浪花拍打着沙滩,海鸥在天空飞翔”,就得写清楚场景、元素、动作,不能只写“海边”,不然AI可能给你生成个海啸视频,那可就糟了。
选部署方式,新手推荐在线试用(如果抢到名额的话),打开Stability AI官网,找到Stable Video Diffusion入口,注册账号登录,本地部署太麻烦,得装Python、CUDA,还要配环境,我这种技术小白搞了3天才弄好,差点把电脑砸了,新手还是老实等在线版吧。
设置参数,分辨率选1024x576就行,太高了生成慢,太低了模糊;帧率24帧够用,电影都这帧率;时长选4秒,免费版上限;CFG Scale调到7,这个数值控制AI听不听话,太低画面乱,太高太死板;Motion Bucket Id设50,画面动得自然,不会像抽风。
点击生成按钮,然后等着,我用RTX 4070生成4秒视频,大概等3分钟,期间可以去倒杯水、刷个牙,别盯着进度条看,越看越觉得慢,生成完了点击下载,要是不满意就改改描述或参数,再生成一次,我最多试过5次才满意,耐心点总能成。
常见问题解答
Stable Video Diffusion生成视频要多久?
生成时间看电脑配置和视频参数啦!我用RTX 3060显卡,生成4秒512x512分辨率视频要8分钟,换RTX 4090只要2分钟,差距大得像自行车和跑车,要是在线生成,还得看网速,有次我家网卡,等了15分钟才出结果,期间还以为网页崩了,刷新好几次,急得我直跺脚。
Stable Video Diffusion需要显卡吗?
本地部署必须要!而且显卡不能太差,至少RTX 3060 8G显存起步,不然生成视频时电脑会卡死,像蜗牛爬一样慢,要是没好显卡,就只能等官方网页版开放试用,或者去蹭别人的服务器,不过蹭服务器得看运气,有时候排队能排到第二天,比买奶茶排队还夸张。
Stable Video Diffusion能生成多长的视频?
目前免费版最多生成4秒,想更长就得一段段拼,我上次想做个20秒的旅行视频,就生成了5段4秒的,然后用剪映拼接,虽然麻烦点,但总比没有强,听说后续可能会出长视频功能,不过官方还没说具体时间,我天天在论坛蹲消息,跟等更新的追剧党似的。
Stable Video Diffusion是免费的吗?
基础功能免费!本地部署开源代码随便下,一分钱不用花,但在线版测试阶段名额有限,抢到才能免费生成,没抢到就用不了,以后可能会出付费功能,比如高清渲染、长视频生成,不过现在先用免费的过过瘾,等真收费了再考虑要不要掏钱,反正现在白嫖香得很。
Stable Video Diffusion和Pika哪个更好用?
各有各的好!Pika生成的视频更流畅,像加了防抖滤镜,新手随便弄弄都好看,但最多3秒,还不能图像转视频,Stable Video Diffusion能生成4秒,支持图像转视频,参数能调,适合想折腾的人,不过操作稍微复杂点,我刚开始用的时候,对着参数面板发呆10分钟,现在总算摸出点门道,生成的视频不比Pika差。


欢迎 你 发表评论: