谷歌Imagen 2 AI生图神器生成比照片更逼真的32岁女性保护主义者图像
提问:下面这张图,是AI生图还是照片?
倘若并非如此这般去问,绝大多数的人大概都不会去想到,这竟然不是一张照片。
是的,只要在谷歌最新AI生图神器 2中输入这样的提示词——
描绘一个32岁的男性被拍摄到显现出来的身影画面,形象呈现直起身处于某种类似场景之中,其具有短而卷曲状形态的头发,脸上洋溢着一种暖和让人感觉温馨的微笑神情容貌 。
一名年龄为32岁的年轻女性自然保护主义者,在此过程里展现体格健壮的模样,有着一头短卷发,并且面带亲切的笑容,此刻正身处丛林之中进行探索冒险 。
就能得到开头那张无比逼真写实、比照片还像照片的图像了!
圣诞节是快要临近了,然而谷歌却依旧处于激烈竞争状态——有个号称文生图模型2的存在,它被称作是DALL·E 3最强的竞争产品,最终是非常重要地推出了。
刚运用完GPT - 4,紧接着又在卷完GPT - 4 后发出2去和DALL·E 3竞争了,在这场竞争中,2023年年底的“卷王”称号,谷歌是实实在在地获得了应得此项美称的结果。
不仅手指逼真,而且拿筷子的姿势也很标准
毋庸置疑,2堪称当下文本转图像这项技术领域的极度卓越高端非凡的成果,已然冲破了AI生成图像的限定范围。
置身于机器学习算法所具备的强大功能的助力之下,能够把文本描述转化成生动且清晰的、具备高分辨率的图像,这里所指的是2 。
2 有着最为不一样的地方,在于它可以凭借令人吃惊的精准度,领会繁杂且抽象的观念,接着将此观念予以可视化呈现,其细腻的程度让人赞叹不已!
2的核心,乃是复杂的神经网络架构,经过微调的模型,于文本理解方面,呈现出无与伦比的性能,并且在图像合成上,也展现出了无与伦比的性能。
现在,在文生图领域,谷歌又竖立了新的标杆。
用自然语言就能生图的模型,又多了一个
现此刻,除去DALL·E 3之外,我们再度拥有了一个仅仅依靠自然语言便能够生成图形的模型!
需用极为复杂、专业的提示词,与之相比,在易用性方面,已被两位竞争者远远甩在后面了。
仅仅凭借那简单的文本,便能够生存出多样化的复杂图像,这样的AI生图模型,对于内容创作所产生的影响,是极其深远的 。
这话针对那些依赖视觉内容的行业而言,这带来了游戏规则的彻底改变,大幅削减了传统内容制作需要耗费的时间,内容创作者能够以从未有过的速度,去制作具备高质量的视觉效果且独具特色的画面呈现、场景搭建、角色塑造等视觉内容的各个核心构成部分。
同时, 2还具有无可比拟的图像质量和多功能性。
动用谷歌极为先进的文本至图像扩散技术里的2,所生成的图像质量超高,效果逼真,并且与用户的提示具备高度的一致性。
其致使的缘由在于,该情况是利用用于训练数据的自然分布状态,以此来生成更为逼真的图像,并非在其过程当中采用的是预先经过编写操控设定完成的样式表述法。
A on a dark blue
水母在深蓝色的背景下悠然漂浮
可以看到, 2的图像生成能力非常惊人。
不管是去刻意描绘那种纷乱繁杂、毫无头绪的景致,还是去精细勾勒那些条条框框明确、细致入微的物件,又或者是凭借想象去塑造那种光怪陆离、玄幻莫测的情景,最终所生成的图像,其保真性竟然会达到这样一种程度,那就是它们能够跟人类艺术家殚精竭虑创作出来的图谱一较高下,而且,甚至能够直接做到将其远远抛在后面 。
关于一块木板上的一小滴油。光是,木板的一个明亮部分。在……里有一块白色的布。,光,刷子, 无法通顺连接所有这些内容形成一个完整且表意清晰的句子,原内容表述较为混乱且无序难以准确改写为符合要求的句子请检查并补充完整准确的信息。
有一幅小小的油画作品,它所描绘的是放置于砧板之上的橙子,阳光穿透橙子切成的片状,那柔和的呈现橙色的光线倾洒在了砧板上面,这幅画的背景是一块有着蓝色与白色相互交织的布,画面以巧妙的方式捕捉到了光的折射以及反射所产生的效果,与此同时还展示出了画家那种饱含感情的笔触 。
网友称,看到那张橙子图,着实令自己大为吃惊。灯光穿透橙子后所形成的投影,跟提示里描绘的意境极为契合!
曾有人借助同样的提示内容,促使DALL·E 3生成了一模一样的橙子油画图,然而就效果而言,相较于3来讲,确实是明显弱了许多。
类似的,生成的橙子,在真实感和意境层面,也要差上一截。
诗中意境,一键逼真还原
过去的「文本到图像」模型,一般是依照训练数据集里图像以及标题当中的详尽信息,进而生成跟用户提示相匹配的图像的。
然而,它们存在着这样一个问题,即针对每一张图像以及与之配对的标题而言,在细节质量方面,还有准确性方面,都极有可能会出现相当大的差异。
为了助力创建具备更高质量以及更准确的图像,为了能更好地契合用户的提示,在2的训练数据集中增添了更多描述,以此帮助2去学习不同的标题风格,并且更好地理解范围广泛的用户提示。
这种图像与标题的配对方式,能够起到帮助作用,有助于更加良好地去领会图像跟文字之间所存在的关系,极大程度地提升了其对于上下文以及细微差别的理解能力,。

就比如说,有一位来自美国的作家,在其作品《晚间赞美诗》里,存在着这样的一句话,那句话是「溪流潺潺流动着,鸟儿发出啁啾之声,空中飘荡着它们混合而成的音乐」 。
诗中绝美的意境, 2把要点全抓住了。
你提供的内容似乎不完整且存在错误表述,不太能准确理解其完整意思并进行改写。请你检查并补充完整准确的内容 : - ) 以便我能更好地完成任务。
相较而言,好像在文学描述所涵盖的内容的把控方面是有所不足的,很有可能会于图里主动性地添加上一个人物哦。然而从总体上来说,画面所呈现出来的效果,确实是挺好的呢。
然而,当到达DALL·E 3这个时候,它竟然在图像之上添加了几行文字,进而生成了一张名为「贺卡」的东西,是吗?
在很有名的小说《白鲸记》当中,有这样的表述,“去想象大海的那些微妙之处,而其中最可怕的地方在于,生物是怎样在水下面滑行的,只不过通常情形下难以被发觉,并且还诡谲地隐匿于最为可爱的蔚蓝色调之下” 。
2也是很懂「海洋文学」的特点。
关于大海,它那最为怎样的滑行,在很大程度上,是什么样及其色调。(《白鲸》所著) 需说明的是,原英文句子存在语法错误等问题,不太能准确理解其确切含义,以上改写只是大致基于其内容结构进行。
相比较而言,跟DALL·E 3一组抵达深海,便立刻迅即呈现出克苏鲁的态势……
DALL·E 3
在儿童文学领域里颇为知名的大家所创作的《秘密花园》当中,针对知更鸟存在着这样的一句相关的阐述:
知更鸟,从那缠绕着的常春藤之上,飞到了墙头,它张开嘴巴,自此唱出了一个响亮且甜美的颤音,仅仅是为了去炫耀它自己而已。在这世界上,就不存在什么东西能够比它更加惹人喜爱了——它们几乎一直都是如此这般去做的 。
快看,由2生成的这幅画,将常春藤暗藏的细节呈现了出来,把墙头暗藏的细节呈现了出来,把唱歌暗藏的细节也全部呈现了出来。
同样的提示词,在真实感上还要差上几分。
相比于上面的两家,DALL·E 3显得更为逊色了,特别是在植物以及羽毛的细节方面。
风格复刻,随意变换,更懂人类美学
一直以来,图像生成饱受诟病的问题之一,便是人物的手指生成。
这次, 2的数据集和模型进步,在许多领域取得了改进。
这里面涵盖着,渲染得极为逼真的手部模样,还有具备逼真效果的人脸,以及能够让图像一直维持不被干扰状态的视觉伪影。
同时候,谷歌按照人类针对光线、取景、曝光、清晰度等特质的偏好,训练了一个专门的「图像美学模型」。
每一张图像,都被赋予了一个美学的分数。这,对其在训练数据集中,赋予人类偏好的图像,给予更多权重,有着调节作用。
这样一来,就提高了 2生成更高质量图像的能力。
借助提示「花」的AI所生成的图像,美学分数由处于低位(左边)朝着高位(右边)发展 , 。
2的扩散技术,提供了高度灵活性,这使得控制图像风格变得更容易,也令调整图像风格变得更容易。
经由给出参考风格的图像,并且将其与文本提示加以结合,如此能够训练2,进而生成跟相同风格相契合的新图像。
通过使用参考图像和文本提示, 2可以更轻松地控制输出样式
更强的「修复」和「扩图」
另外,2具备支持图像编辑功能的特性,像是「修复」()以及「扩图」() 。
凭借着提供参考图像以及图像掩码这件事,进而能够运用技术直接于原始图像当中促使新内容生成 。
倘若在下面这幅初始的图当中,只要键入「拥有一个放置着几本书以及花瓶的架子的绿色墙壁」,与之对应的内容便会于原图里产生了!
新内容毫不突兀,完美融入原图,浑然天成。
另外,我们还可以使用功能,给原始图像扩图。

迎着夕阳,位于非洲大草原之上,长颈鹿与斑马所拍摄的双人大头贴,瞬间就扩展成为了全身照。
全面加持企业级场景,logo文案一键生成,中文也支持
现在,谷歌已经 2下放到开发者平台 AI。
在人工智能平台上面,客户能够运用直观的工具去进行自定义以及部署,享受有着全面管理特征的基础设施,还有内置的隐私与安全保护措施。
凭借谷歌所给予的技术助力,使图像质量达成了较为明显的提高,助力开发者依据特定需求去创造图像,这里面涵盖着:
基于自然语言给出的提示,去生成具备高质量特质的图像,打造出逼真效果的图像,产出高分辨率的图像,进而生成精美样式的图像 ;。
- 支持多语言文本渲染,能够在图像中准确添加文本内容;
- 可以设计公司或产品的Logo,并将其嵌入到图像中;
具备视觉问题解答技能,能够生成图像标注,可依据图像局部细节所提问题,给出包含必要信息的文字作答 。
改进的图像和文本理解,多种创新的训练和建模技术,借助这些,高质量图像,能够生成精准的图像,能够生成高品质的图像,能够生成逼真的图像。
文本渲染支持:可以根据提示内容,精准地渲染出正确的文本。
可以在生成物体图像时,这个物体图像含有特定文字或短语,确保输出图像中包含正确短语,是2 。
Logo设计,2具备为品牌、产品那样的事物生成多种创意且逼真的Logo的能力,像徽章、字母,甚至是极为抽象形式的Logo 。
标注,以及问答,借助增强后的图像理解能力,2 具备创建详细长文标注的能力,还能够针对图像内元素所提出的问题给出详细答案。
多语言提示呈现这样的情况,除了英语之外,2还对其他6种语言予以支持,这6种语言分别是中文、印地语、日语、韩语、葡萄牙语、西班牙语,并且有着在2024年初增添更多语言的计划。这项功能之中还涵盖提示与输出之间的翻译能力,举例来说,能够以西班牙语进行提示,不过指定输出的却是葡萄牙语。
图像加水印,生成更安全
谷歌设置了强大的护栏,从设计和开发阶段开始,一直到产品部署阶段,目的是帮助降低文本 到图像生成技术的潜在风险和挑战 。
集成了,用于加水印的尖端工具包,集成了,用于识别AI生成内容的尖端工具包。
如此一来,Cloud平台的客户能够直接于图像里增添数字水印,与此同时并不会致使图像质量有所降低。
然而,哪怕是就在针对图像予以过滤之后,接着进行裁剪之时,或者是运用有损压缩方案加以保存以后,依旧能够被检测出来。
除此以外,在面向全部用户推出以前,谷歌会开展强大的安全检测,以此将伤害风险降至最低限度。
谷歌团队,从最初起始的时候介入,开始投身专注致力于对2的数据安全方面的训练,并且增添添加了技术性质的护栏,以此来对有问题的输出予以诸如暴力、冒犯以及色情意味内容这样那样的限制 。
与此同时,谷歌针对训练数据,以及输入提示,还有系统生成的输出,展开安全检查。举例来说,当前正在运用全面的安全过滤器,目的在于防止生成诸如名人图像这类存在潜在问题的内容。
网友惊呼:真·最强文生图模型来了!
研究副总裁兼深度学习主管Oriol 尝试用 2为生成徽标。
另一位谷歌科学家用 2生成的图像如下。
下面是一只网友实测生成的蓝猫。
曾经有一帮网友持有这样一种看法,那就是在众多同类产品当中,2这款产品是最为出色的。就如同Ultra这款产品一样,只要去看手部以及相关文字呈现,便已然足够了。
不过,他还吐槽了谷歌不向所有人开放产品的问题。
像平常那样,谷歌宣告了一款大部分人没办法运用的产品,这般究竟有啥意义呢?!
参考资料:


欢迎 你 发表评论: