首页 每日干货分享 支持中文的AI绘画工具悄然走红,圈内掀起中文创作热潮

支持中文的AI绘画工具悄然走红,圈内掀起中文创作热潮

发布时间: 浏览量:1 0

金磊 萧箫 发自 凹非寺

量子位 | 公众号

家人们,听说了吗?

现今,于“一句话生成画作”这般的圈子里头,又有一款AI工具,静悄悄地火了起来。

不是你以为的Disco 、DALL·E,再或者……

而是全圈子都在讲中国话的那种。

瞧,已经入圈的小伙伴们,都开始纷纷晒自己搞出来的杰作了:

众多网友上传了好多画作,从这些画作来看,这个AI能够涵盖的风格确实不少呢。

具有奇特创意的《熊猫骑摩托》,宛如中国山水画中那如丝如缕的春天小雨般细腻,色彩绚烂的概念插画《亚特兰蒂斯》,尚有一只毛色为黑白色调且戴着帽子还在抽烟的狗……

那么,这个,能够支持中文的,同时,又能够hold住众多画风的,AI工具,究竟到底是何种什么来头呢?

不卖关子。

它那真实的面貌,实际就是百度最近对外公布推出的一款用于中文作画的人工智能,也就是文心·一格 。

听说,类似这种存在的“你说我画”的AI,在国外居然已经大火了好长的一段时间。

现在终于等到了个国产版的,那么它到底好不好用呢?

「文心·一格」的初体验

既然在这个圈子流行讲中文,那咱就先从“中国风”开始上手。

像是输进去那种很有古典韵味的“江南水乡”,之后通过另外那个在方向以及风格方面去进行选择,选择“传统”,选择“中国风”。

仅仅只需等待那么一会儿工夫,“啪啦啦地瞬间发出声响”,一幅契合语义以及风格的画作就立马诞生了:

嘿~还别说,这画还真有一股子“小桥流水人家”的味道。

设为国风,那么便更传统些,径直输入一句古诗词,瞧瞧文心·一格会有怎样的反应 ,:

云深不知处。

整体来说,这幅画作确实是把“云之深”韵味展现得到位了。

据知晓,文心·一格能够持续加大难度,对于AI图像生成技术的资深使用者来说,一格马上要开放高级自定义功能,此项功能支持采用文本描述联合参数设置的办法去探索更多不同创意。

同时,能够于“艺术家精品画廊”之中,率先去浏览那些,被内测用户已然创作出来的图片,就如同下面呈现的这一张:

说真的,要是不知道这是由AI搞出来的创作,第一眼望去还会以为是哪部动漫里的情景呢,那可真是足够绚丽多彩的了。

还有下面这一张,也同样称得上是惊艳绝伦。

但正应了那句“货比三家”,文心·一格是AI作画这条赛道里的“后起之秀”,它与国外的产品相较,情况又是怎么样的呢?

接下来的挑战阶段,便是国内的人工智能与国外的人工智能进行对抗——凶猛的狗发出大声吼叫 。

比较明显的情形是,Disco 的风格朝着狂野的方向更具一种趋向性;然而文心·一格是在现实主义方面有着更突出的偏向态势。

拿出文心·一格,再拿出DALL·E 2,二者做个比较,是毕加索风格的猫 。

在看完这两者的创作对比,你觉得谁家的更毕加索一些呢?

不过在这般效果背后,对应的问题也随之而来:

要生成风格更全面的图片,文心·一格的用法会更复杂吗?

懂中文,也懂“懒人”

用起来,并不复杂。

从操作界面方面,对Disco、文心·一格等AI画画产品,我们进行了简单对比,还有提示词要求方面,以及性能要求方面,情况也是如此 。

在操作界面那儿,Disco所开放的接口,虽说不能讲是极其复杂,然而的确是存在着一定程度的门槛。

它于谷歌Colab上直接运行,需在申请账号之后加以使用,图片生成之后会被保存在云盘,图像分辨率以及尺寸需手动进行输入,除此之外还有一些关于模型的设置 。

好处在于是能够进行更改的参数数目更为众多,针对于那些处于高端水平的玩家而言具备着更强的可操作性,仅仅是相对比较契合专门致力于研究AI算法的那类人群 。

相对而言,文心·一格的操作仅需三个步骤,先是输入字符,接着用鼠标选定风格以及尺寸,然后点击进行生成 。

前文已然讲过,文心·一格同样有着Disco的“高级自定义”功能,而后就会予以开放,对于妄图拥有更多“参数自由”的小伙伴来讲,同样是个挺好的选择。

至于提示词,Disco 的设置还要更麻烦一些。

除了对画面的内容予以描述之外,画作的类别以及所参考的艺术家风格,也都需要借助提示词来进行设置,通常情况之下,大家会在其他的文档当中编辑好之后,再直接粘贴过来。

一旦关键提示词设置得欠佳,那生成的效果便难以令人满意,得反复去尝试,持续地细化,如此AI最终方可生成适宜的画面效果 。

相对而言,文心·一格却不存在格式方面的要求,输入包含150字的句子,或者输入词组,这两种情况都是可行的 。

当然,输入画家名字如莫奈,也能输出对应风格:

最后,在性能要求方面,Disco存在GPU使用限制,每天仅能免费运行3小时。抱抱脸()上,部分AI文生图算法的Demo虽说操作相对简单,然而一旦网速不佳,便极易出现加载失败的情况,。

测试mini DALL·E时加载就失败过

相较而言,文心·一格在非使用高峰期之时,大多情况下,只需两分钟能够生成,并且对于所使用的设备,并没有任何要求。

全部综合起来看,同样身为文字生成图片人工智能,实际上和文心·一格的极具真实性的只要一句话就能生成图片相比较而言,DALL·E以及Disco的生成进程通通都是不太容易的句号。

所以于这背后,文心·一格生成图像,到底按照怎么样的一种逻辑呢?又是基于怎样的一种逻辑呢?

拿我们以输入“云深不知处”作为例子来说,期望的是能够输出一幅具备中国风的画作。在收受到所输入这几个字词(query)之后呢,AI的脑细胞就开始如同机器一般“运作”起来了,会从语法、词法以及语义等诸多角度针对于文本展开分析 。

倘若把生成进程予以可视化呈现,此阶段尚无法窥察到什么成效,正处于AI对文本进行理解的阶段,。

不久之后,当AI对文本予以“拆解”后,便领会了该如何去绘制这幅画作,紧接着,在由用户可自行选择的特定尺寸的画纸上,构思出了整体的轮廓,此轮廓兼具云的元素以及中国画的风格 。

紧接着,依据扩散生成模型的原理,一次次地迭代来完善并且修正画面的细节,持续不断地提升清晰度,反反复复地检查图文描述的一致性,采用更为精确的配色去替换噪声,。

最后,生成名为《云深不知处》的完整画作:

外表看起来,“一句话生成图片”这件事好像并不难,然而实际上呢,它对AI的语义理解能力以及图像生成能力带来了更进一步的、不断往前的要求。

为了能够更优质地理解文本,为了能够提升输出成效,文心·一格是在百度文心的图文生成跨模态模型ERNIE-VilG的根基之上,开展了更为详尽的优化 。

为了使图文理解能力得到提升,在知识得以增强的基础之上,将跨模态多视角对比学习给引入进来 。

这样做是为了把输入要求降低,与此同时将效果提升,于是采用了基于知识的文本联想能力,使得模型能够学会自行去扩展提示词的细节,进而拓展提示词的风格 。

为着提升图像生成能力,运用渐进式扩散模型训练算法,以使模型去挑选效果最佳的生成网络。

此外,在训练方面,文心大模型的产业级能力给文心·一格提供了帮助;在数据方面,文心大模型的产业级能力也发挥了作用。例如,AI训练数据能够被应用于文心·一格的模型;平时在产业实践中积累的经验,同样可以运用到文心·一格的模型中去。至于百度知识图谱的算法能力,能够把模型通用性进一步提升。

在此值得一提的是,要是开发者打算把文心·一格的能力运用到产品里,那么直接去调用ERNIE-VilG的API接口就可以了,如此说来真不失为是极为便利的了。

One More Thing

在我们试玩文心·一格片刻之际,于其左下角之处,察觉到了这般饶有趣味的应用场景,借助一键的操作方式,便可达成生成预览的效果:

例如,颇有自如风格的装饰画:

老板批量发年货时印的编织袋(手动狗头):

其实,这是文心·一格的又一特点,它区别于Disco ,区别于DALL·E 2 ,该特点是更强的实用性 。

不单是平凡玩家能借助其去产出自身想要绘制却无法画出的内容,绝对不会存在两幅一样之物,头脑进一步开大点想,就连媒体作者这般的文字内容创作者,也能够利用它以较高质量且高效率地配上图片。

嗯,往后你瞧量子位所撰写的文章,没准某些配图乃是借助AI而成的 。

拥有专业绘画能力的人员、或者是那些从事设计工作的人员以及艺术家群体,更是能够借助它来激发灵感、对创作起到辅助作用。

当然,从官网看来,这个产品还在更新迭代、进一步优化中。

对于往后会不会于更多数字藏品里,瞧见文心·一格的画作?于更多插画之中?于更多海报以及电影动漫之内?

我们拭目以待。

— 完 —

点这里关注我,记得标星哦~

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~