AI视频制作全流程:从风格定位、模型选用到分镜生成
目标受众和风格:
参照你的主题决定视频的受众,进而挑选适宜的风格的,像:赛博朋克风格,其科技感极为强烈;水彩手绘风格,有着那种温馨治愈之感;3D渲染风格,真实感颇为突出;像素艺术风格,具备复古怀旧之态。这儿是风格的大致方向的选择,更详尽的风格特征得在文生图环节加以细化。
现有参考资料:
第一步,参考优秀作品必然是个不错开头,第二步,先去收集与相关主题优质视频的表达内容所使用的法子和风格,对于这一点,你是否存在更佳想法 。
2、将你手头现有的资料进行整理,像什么产品的图片呀,建筑场景的照片呢,虚拟人物角色的多视图啦,科普类的文案哟,故事类的文案呐,歌曲之类的等等。
策划示例:
故事构架示例:
使用AI完成选题策划:
整个选题策划环节我们可以用AI大语言模型来完成,例如:
各大语言模型的选择:
在古文方面有优势, ,诗歌的编写能脱颖而出,较长的强逻辑剧本创作更较具备长处 ,政务内容生成,金融等高敏感方面的数据准确性比较高,不过无法输出图片 。
豆包,是依据抖音平台数据开展训练的,它擅长进行热点追踪,能够捕捉热门视频的选题呢,这种情况适合短视频,它还可以直接输出分镜参考图,不过在个人感觉方面,其创意度是不够的 。
网络流行语,地域文化,文心一言,基于百度的数据予以训练,捕捉能力很强矣,对这二者而言适合短视频热点选题呢,个人感觉其创意度却是最高的 。
通义千问,具备支持长脚本生成的能力,其逻辑连贯性相较于多数模型更为出色,适用于系列剧、纪录片这类具有复杂叙事特点的内容 。
总结,关于长叙事视频,建议运用通义千问搭建框架,以此来优化逻辑,对于短视频,则选择豆包以及文心一言,不要总是只密切注视着一个豆包了。
脚本分镜
角色造型(确保全片角色一致性)

要是你的视频有设计角色,那就先去确定角色特征,这能方便生成角色多视图,把它当作后续文生图的参考,以此保持人物一致性,比如:
关于脚本分镜设计表,它针对每个镜头片段,有着具体的内容。这具体内容包含时长,还有运镜的方式,以及画面呈现的内容,再者是对白或者旁白,另外还有音效方面的信息等。
分镜图片生成(文生图环节)
借助脚本分镜的设计表格,来造就每个分镜的起始帧图片,或者是开头与结尾的帧图片,以此来便利图产出视频。
之所以每个分镜视频是借助图生视频或者首尾帧生视频来生成的,是因为每个分镜的图片乃是影响视频画面质量最为关键的因素,不存在其他能与之相比的因素,这是确凿无疑的事实。
第一步:使用大语言模型将脚本分镜转化为文生图提示词。
第二步:要是存在有人物场景一致性要求的分镜,那么就预先去生成人物的垫图图片,并且还要生成场景的垫图图片。
第三步:运用文生图平台,生成每一个分镜的首帧图片,或者生成首尾帧图片 。
提出这样的建议,即在豆包里直接以十分快速的方式免费生成参考图片,凭借这种快速生成的方式来切实确定风格以及提示词内容是不是准确无误,从而顺利完成提示词的定版工作,之后再前往其他平台进行文生图操作。
文生图的平台和优势:
作为艺术创作参考标准以及对细枝末节过度关注的典型,具备与众不同的视觉呈现效果,创意方面表现突出,欧美风格所拥有些突出之处显著,对中国元素式风格缺少足够理解,不允许使用以中文形式给出的提示内容。
即梦4,0,其会员价格具备较低特性,生成速度比较快,实现了高分辨率,提供多图参考支持,中文理解以及中国元素理解能力较为出色,适宜用在商业海报等商业场景之中。
问:免费,其复杂文本渲染得最厉害,能够支持多图参照,一致性程度高,不过超现实创作表现较差 。
Nano,其会员价格高昂,具备的多模态交互能力十分突出,人物特征一致性在行业里排第一,经过多轮编辑后依旧能够留存面部轮廓与服装纹理,生成速度极为快速(单张图片仅仅需要3秒),然而艺术风格多样性有所欠缺,在复杂场景构图时容易出现差错。
归纳得出:规模较小的项目能够采用简单唯一模式,然而规模硕大的项目则必定要多种模式协同合作,全面充分地借助各个平台所具备的优势。
分镜视频生成(图生视频环节)
凭借分镜首帧图来生成视频,是需进行大量抽卡的,这一步骤实际上是十分简单的,用首尾帧图片也可生成分镜视频。

位于较前位置的分镜脚本设计表当中,存在着关于运镜以及画面内容的动态方面的描述,而这些描述恰恰就是图生视频所需的提示词 。
第一步:将脚本设计表转为图生视频提示词。
提示词一般包含:参考图片描述+运镜+动态特征描述
第二步:使用图生视频平台生成分镜视频。主流平台如下:
具有很强的动态理解能力,就算没有提示词,成功率也相当高,动态效果连贯,既支持循环模式,也就是首尾帧衔接,又支持连续模式,即尾帧作为首帧连续生成视频。
文本输入可得到支持,图像输入也能获得支持,视频输入同样被支持,多模态输入得以完成,动态画面稳定性方面,其表现是最强的,物理运动模拟准确率方面,它也是最强的 。
通义万相 Wan 2.5:能够达成人声、音效跟画面以毫秒级进行对齐,对多语言以及方言的配音予以支持。
即梦AI,深度将剪映生态予以整合,中文语义理解有着92%的准确率,称得上适合去生成抖音风格方面的内容。
可灵AI,其动态效果具备很强的特性,能够对高速运动场景予以支持,物理感知表现准确。它支持方言语音合成,还支持视频元素进行替换、将其删除以及予以增加。
海螺 AI:运镜很高级,但不适合多人物和复杂场景。
谷歌Veo,它能够支持60秒时长下的1080P视频生成任务,在角色一致性方面有着堪称完美的表现,也就是说面部特征以及服装元素在转场过程中呈现出零偏差的状态,所以说它是适合用于制作完整叙事短片或者品牌TVC的 。
Vidu AI,二维动画以及中文元素属于优势范畴,然而三维效果以及清晰度存在不足情况。
总结:
短视频以及带货方面:存在即梦AI,它具备抖音流量适配的特性,还有可灵AI,它拥有性价比方面的优势 。
专门的影视制作,具备Gen - 3(动态稳定性),还有通义万相Wan2.5(音画同步)。
文化IP跟教育,通义万相Wan2.5(文本去进行渲染),加上Vidu AI(适合传统文化这种情况) 。
动态创意实验:海螺 AI(运镜创新)+ V7(艺术风格)
长片段讲述事情经过:Veo软件的3.1版本(具备60秒连贯性),加上通义万相程序的Wan2.5(拥有多场景生成功能)。
后期剪辑优化
需把分镜视频组合到一块儿,在剪映、AE、达芬奇、PR这些软件里,进行添加背景音乐,添加音效,添加字幕,插入转场特效,做调色处理,以及进行高清化处理且补帧等等操作。


欢迎 你 发表评论: