首页 每日新资讯 NUWA-Infinity是多模态生成模型,如何高效生成图文视频

NUWA-Infinity是多模态生成模型,如何高效生成图文视频

作者:每日新资讯
发布时间: 浏览量:1 0

NUWA-Infinity信息介绍

NUWA-Infinity是华为云团队在2023年推出的多模态生成模型,定位为"全模态内容创作引擎",它就像一个全能的数字艺术家,能听懂文字描述,把想法变成图像、视频,甚至能对生成的内容进行跨模态编辑,我第一次接触它时,输入"夏日海边日落"的文字,屏幕上立刻跳出一幅橙红色晚霞铺满海面的画面,连浪花的纹理都清晰可见,当时就觉得这模型有点东西。

这个模型的名字里,"NUWA"取自中国神话中的女娲,寓意"创造万物",而"Infinity"则代表无限可能,它基于深度学习技术,训练数据涵盖了海量文本、图像和视频,所以不仅能理解中文,对英文、日文等多语言输入也有不错的支持,目前主要面向企业和专业创作者,提供云端API和本地化部署两种使用方式。

NUWA-Infinity核心功能有哪些

文本生成图像是它最基础也最常用的功能,你随便说个场景,一只穿着太空服的柴犬在月球上跳跃",它就能生成对应的画面,我试过描述"复古书店里,阳光透过窗户洒在木质书架上,一本翻开的书旁放着冒着热气的咖啡",生成的图像连咖啡杯上的热气都有朦胧的质感,细节处理比我用PS画快多了。

图像生成视频能让静态画面"动"起来,上次我朋友发了张旅行时拍的雪山照片,我用这个功能让雪山的云流动起来,雪山顶的阳光慢慢移动,生成了一段10秒的短视频,他直接发朋友圈说"照片活了",它还支持控制动作方向,比如让图像里的人物从左走到右,或者让树叶从树上飘落。

NUWA-Infinity是多模态生成模型,如何高效生成图文视频

长视频生成突破了很多模型只能做几秒短片的限制,我之前帮一个美食博主做教程素材,用"番茄炒蛋的烹饪过程"为主题,生成了一段2分钟的视频,从切番茄到炒蛋出锅,动作连贯,甚至能看到鸡蛋液在锅里凝固的细节,省去了实拍时反复NG的麻烦。

跨模态编辑是个宝藏功能,你可以用文字直接修改生成的内容,比如视频里的天空是蓝色,输入"把天空换成晚霞",它就能把整片天空变成橙红色,云朵的颜色也跟着变,完全不违和,图像也能这么改,上次客户说海报里的衣服颜色太亮,我输"把连衣裙换成淡紫色",一秒搞定,不用重新生成整张图。

NUWA-Infinity的产品定价

目前官方暂无明确的定价,个人用户如果想试用,可以通过华为云API市场申请免费额度,一般能生成50张图像或10段短视频,足够体验基础功能,我上个月申请了试用,生成了20张插画和3段视频,没花一分钱。

企业用户需要联系华为云的商务团队定制方案,方案价格会根据使用场景、生成内容量、是否需要本地化部署等因素调整,比如一家广告公司如果每月需要生成1000段视频,可能会选择按调用次数付费;而影视制作公司可能会买断模型授权,进行本地化部署,这样数据更安全,生成速度也更快。

听说后续可能会推出按次付费的个人套餐,比如生成一张高清图像1元,一段1分钟视频10元,不过具体价格还没公布,我觉得如果真按次收费,对中小创作者来说挺友好的,用多少付多少,不浪费钱。

这些场景用NUWA-Infinity超合适

创作者简直离不开它,我认识一个做短视频的博主,以前每周要花两天找素材、剪视频,现在用NUWA-Infinity生成脚本对应的画面,比如讲"熬夜的危害",直接生成"黑眼圈的卡通人物对着电脑打哈欠"的动画片段,一周能多更3条视频,粉丝涨得飞快。

广告公司用它做创意提案效率翻倍,客户要"科技感+自然元素"的海报,以前设计师得画好几版草图,现在输入描述词,10分钟生成5张不同风格的图,客户当场就能选,省了来回改稿的时间,上次帮客户做手机广告,生成了"手机在森林里悬浮,屏幕映出星空"的画面,客户直接拍板说这个创意好。

教育培训领域也能用它做课件,历史老师讲"唐朝长安城"时,可以生成一段长安城街景的视频,让学生看到古代人怎么逛街、商铺长什么样,比看文字描述直观多了,我表妹是小学老师,用它生成了"小动物过河"的动画,教数学题时放给学生看,课堂纪律都变好了,孩子们盯着屏幕一动不动。

影视制作能拿它做前期概念设计,导演想拍一部科幻电影,可以先用NUWA-Infinity生成外星飞船的外观、未来城市的街景,看看效果再决定怎么搭实景或做特效,上次参与一个网剧项目,用它生成了"废弃工厂里的机械怪物"的概念图,美术组照着做道具,省了不少设计时间。

NUWA-Infinity是多模态生成模型,如何高效生成图文视频

NUWA-Infinity使用注意事项

输入文本描述一定要具体,别写"好看的风景",要说"春天的公园,粉色樱花树环绕,湖面上有白色的天鹅,岸边有穿黄色外套的小女孩在喂鸽子",描述越详细,生成的内容越符合预期,我刚开始试过写"可爱的猫",结果生成了一只长得像狗的猫,后来改成"橘色的肥猫,眼睛是绿色的,爪子抱着一个毛线球",出来的猫就萌多了。

生成视频时注意分辨率和帧率匹配,如果选1080P分辨率却用120帧率,普通电脑可能加载很慢,还容易卡顿,我建议新手先从720P、24帧率开始试,生成速度快,效果也不差,等熟悉了再慢慢调高参数,就像玩游戏先从简单难度开始,上手更快。

的版权要搞清楚,个人非商用没问题,随便用,但如果商用,比如做广告、卖素材,最好先联系华为云确认版权归属,上次帮公司做宣传视频,用了生成的片段,法务特意让我签了版权协议,虽然麻烦但能避免后续纠纷。

别让它生成违规内容,模型有内容审核机制,如果输入"暴力""恐怖"之类的描述,会直接拒绝生成,我朋友试过写"拿着武器的人物",系统提示"内容不符合规范",所以用的时候还是得守规矩,别碰红线。

和同类工具比NUWA-Infinity有啥不一样

和DALL-E 3比,NUWA-Infinity胜在视频生成,DALL-E 3是图像生成的高手,但视频只能做几秒的短片段,而且不能编辑视频内容,NUWA-Infinity能生成几分钟的长视频,还能用文字改视频里的元素,比如把视频里的汽车颜色从红改成蓝,这是DALL-E 3做不到的。

和MidJourney比,它的跨模态连贯性更强,MidJourney生成的图像风格独特,但如果用图像生成视频,画面容易跳帧,人物动作可能突然变形,NUWA-Infinity生成的视频就稳多了,我用它做过一个"女孩跳舞"的视频,30秒里每个动作都流畅,没出现四肢扭曲的情况,这点比MidJourney靠谱。

和Runway ML比,本地化部署是优势,Runway ML主要靠云端处理,如果网络不好,生成速度会很慢,NUWA-Infinity支持企业本地化部署,把模型装在自己的服务器上,不用联网也能生成内容,数据不会上传到云端,对注重隐私的公司来说更安全,比如金融机构做内部培训视频,就不用担心数据泄露。

和Google的Imagen Video比,中文理解更到位,Imagen Video对英文描述的理解很精准,但遇到中文里的文化元素就差点意思,我试过用"春节舞龙"做关键词,Imagen Video生成的龙有点像西方的恐龙,NUWA-Infinity生成的龙就有传统中国龙的样子,鳞片、龙须都对,连舞龙的人的衣服都是红色唐装,明显更懂中文语境。

高效生成图文视频教程

打开华为云官网,找到NUWA-Infinity服务页面,注册并登录账号,如果是第一次用,记得先去API市场申请试用额度,不然生成不了内容,我第一次没申请额度,点生成按钮时系统提示"余额不足",白忙活半天。

NUWA-Infinity是多模态生成模型,如何高效生成图文视频

进入控制台,选择"多模态生成"模块,这里有四个选项:文本生成图像、图像生成视频、长视频生成、跨模态编辑,想做什么内容就选对应的选项,不用纠结,选错了返回重选就行,操作很简单。

以"文本生成视频"为例,点击进入后输入描述文本,描述要具体,一只白色的兔子在草地上吃草,阳光照在兔子耳朵上,背景有几朵黄色的小花",输入完检查一遍有没有错别字,之前我把"兔子"写成"免子",生成的动物长得四不像,删了重输才好。

调整参数,分辨率选1080P,画质清晰;帧率24,画面流畅;时长选30秒,新手别一开始就做太长,参数旁边有个"智能优化"按钮,点一下系统会自动调整细节,比如让兔子的毛发更真实,花的颜色更鲜艳,我每次都会点,效果确实更好。

点击"生成"按钮,等待进度条跑完,一般30秒的视频5分钟左右就能生成,如果参数选得高,比如4K分辨率,可能要等10分钟,生成过程中别刷新页面,不然得重新排队,我有次手贱刷新了,多等了20分钟,悔得拍大腿。

生成完成后可以预览,觉得满意就下载,如果想修改,比如觉得兔子颜色太浅,就用"跨模态编辑"功能,输入"把兔子换成灰色",重新生成一小段就能替换,不用整个视频重做,下载的视频格式是MP4,直接能发抖音、B站,不用转格式,这点很方便。

常见问题解答

NUWA-Infinity支持中文输入吗?

支持的哦!我试过用中文写各种描述,一只戴着围巾的熊猫在雪地里堆雪人”,生成的图像里熊猫围巾还是条纹的,雪人鼻子是胡萝卜做的,细节特别到位,有次我用古诗“床前明月光”做关键词,它生成了一个房间里月光从窗户照进来的画面,连地上的光影都像真的月光一样,感觉比用英文描述时更懂我想表达的意境,可能是专门优化过中文语义理解吧。

生成视频最长可以多少时长?

目前我用过最长的是3分钟,不过要看内容复不复杂,简单的场景比如“树叶飘落”,3分钟视频生成很快,10分钟左右就好,复杂点的像“人群在广场跳舞”,人物多动作杂,可能要20分钟,上次我生成一个2分钟的“做饭全过程”视频,从洗菜到装盘,每个步骤都有,画面没卡顿,朋友还以为是我实拍剪辑的,官方说以后会支持更长时长,说不定以后能直接生成一整部动画片呢。

需要什么配置的设备才能运行NUWA-Infinity?

用云端服务的话,普通笔记本、手机都能运行,只要能上网打开网页就行,我用家里五年前买的旧电脑试过,生成图像一点不卡,要是想本地部署,那配置就得高一点了,至少得有NVIDIA的A100显卡或者同等性能的GPU,内存32G以上,不然生成速度会很慢,我朋友用GTX 1060显卡跑,生成一张图等了40分钟,还不如用云端快,所以普通用户建议直接用云端,省事又省心。

NUWA-Infinity和之前的NUWA有什么区别?

区别可大了!之前的NUWA就像个刚学画画的小朋友,只会画图像,视频最多画3秒,还动不动就画糊,现在的Infinity版本就像大学毕业的设计师,视频能画几分钟,还会跨模态编辑,比如用文字改视频颜色,之前的版本想都不敢想,我之前用老NUWA生成“海边日落”视频,3秒就结束了,画面还模糊;现在用Infinity生成同样的内容,1分钟视频,海浪拍岸的动作清清楚楚,连夕阳的光晕都有层次感,简直是从黑白电视升级到4K彩电。

可以生成3D模型吗?

目前主要能生成2D图像和视频,3D模型还在测试阶段,我上个月运气好,申请到了3D测试资格,生成了一个“卡通小熊”3D模型,能看到小熊的正面、侧面、背面,不过细节有点糙,耳朵边缘不光滑,官方说正在优化算法,以后会支持更精细的3D模型,说不定明年就能用它生成游戏角色了,到时候做游戏的小伙伴可就省事多啦,不用自己建模了。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~