AI绘画作为AIGC重要分支，跨模态生成技术将推动下一代互联网发展

作者：每日干货分享

发布时间：2025-11-06 16:13:16 浏览量：48 0

AI绘画属于AIGC的重要分支范畴，跨模态生成乃是该项技术发展进程当中的关键节点，。AI绘画作品荣获奖项一事成为了引发连锁反应的导火线，其商业化所具备的潜力目前尚且有待去进行发掘，跨模态大概会朝着更进一步的方向发展，下一代互联网有望成为AI绘画的关键着力点所在。

[]

AIGC里重要的分支是AI绘画，该项技术发展的关键节点是跨模态生成。AIGC是基于人工智能技术像生成对抗网络GAN、大型预训练模型等，借助已有数据找寻规律，凭借适当的泛化能力生成相关内容的技术，可看作是继PGC、UGC之后的内容产出方式，AI绘图属于AIGC技术场景里的分支。目前在该项技术上处于领先地位的主要是等国外大厂，AI绘画关键的发展节点是跨文字和图像的多模态内容生成技术的达成。

以AI绘画作品获奖作为引发高度关注的导火线来考量，当前主流的乃是模型，AI绘画作品《太空歌剧院》在一场美国的人类艺术比赛里荣获第一名。这成为了近期AI绘画深受高度关注的导火线，那些通过特定软件来生成的绘画作品，在成果方面丝毫不逊色于艺术家的创作，基于模型所设计的多部即《Disco 》、《》、《DALL·E2》等AI绘图应用，成为了当下的主流产品，与此同时，《Dream by Wombo》等手机App的上架，令AI绘画实现了从专业度较高的产品方向大众化应用的转变。

有待发掘商业化潜力，有希望参与百分之十到百分之三十的图像内容生成工作。当前AI绘画的用户付费意愿不强烈，百分之六十的用户在AI绘画相关方面从未付费，在C端付费形式刺激程度较低时，未来B端可能会成为AI绘画软件的核心客户呀。但与此同时，AI绘画面临版权问题，绝大多数原创作品的版权拥有方会在意AI提取自身作品的部分元素呢。按照市场规模予以考量，在未来的五年时间里面，将会有占据10%至30%比例的图片内容，是由人工智能参与进行生成的，与之相对应的，将会有超过600亿的市场规模出现。

下一代互联网有望成为 AI 绘画的关键着力点，跨模态可能会更深入，通过以 VR 设备等新型硬件作为入口的下一代互联网，会使得 2D 向 3D 的转换对于内容量的需求呈指数级上升，过程中 AI 将起重要辅助作用，当下， GAN 模型和 NeRF 模型都已然能够达成单张 2D 图像向 3D 模型的生成，并且动态、场景、光影效果等这些 3D 图像所需的要素已然取得了显著进步。基于此，文字朝着2D图像生成发展，接着朝着3D模型的生成迈进或有希望达成，这项技术不但在游戏等行业能够获得有效运用，对于下一代互联网各类元素的构建同样具备关键意义，所以，AI绘画也许不是结局，仅仅是AI进程里的一块关键拼图，有希望在技术更新的助力下达成更大的应用价值。

风险提示：AI绘画关联技术的发展程度未达预期，其商业化的拓展情况低于所期望的程度。

报告目录

正文部分

AI绘画横空出世，新技术奠定跨模态成熟

1.1. AIGC重要分支，有望率先落地

AIGC的全称是AI-啊，它是依靠生成对抗网络GAN、大型预训练模型等人工智能技术的，借助已有数据探寻规律，凭借适当的泛化能力来生成相关内容的技术，AI绘图属于AIGC技术场景里的分支。当下，AIGC正从简单的降本增效朝着创造额外价值进行升级，跨文字与图像的多模态内容成为关键的发展节点。而且，AIGC已成为PGC和UGC之后的新内容创作模式，有着较大的商业前景。

从参与AIGC者的角度来讲，当下国外大型企业以及细分赛道中处于领先地位的公司已然位列世界水平较高位置，国内的部分公司也正奋力追赶比如说等公司凭借自主研发或者收购的途径已经处于技术领先阵地，图像、视频等细分范畴也有许多处于领先的小型公司出现国内进行布局数量最多的赛道是AI写作以及语音合成，图像、视频等领域里设立的新公司持续增多。随着国内AIGC技术在未来持续成熟，大公司收购有可能会成为主流现象，把部分初创公司的先进技术融入到已然成熟的内容体系里，由此生成能够直接应用的消费形式，进而在多种场景当中达成应用。

跟我国大陆用户比起来，欧美用户因家庭娱乐习惯有别，更倾向于主机。依据观研数据，2021年全球主机用户数量达到4.1亿人，当中欧洲是2亿人，北美是1.6亿人，我国大陆是821万人；世界主机（涵盖软硬件）市场规模为2867亿元，其中欧洲为949亿，北美为1301亿，我国大陆为26亿元。我国大陆市场和欧美市场差异极大，主要是主机渗透率不高的缘故，国内市场手游快速流行，主机游戏没能有效触及用户。

1.2. 模态生成为主流，文字到图像基本成熟

AI绘画初代的实现形式是GAN，也就是生成式对抗网络Nets，最初它是从图像到图像的生成过程，GAN模型由生成器和判别器两部分组成，其中生成器会去抓取数据，产出新的生成数据，然后把这些新数据混入原始数据中送交判别器予以区分，这一过程会不断反复进行，一直到判别器没办法以超过50%的准确度分辨出真实样本，就像以的SPADE那样，用户提供草图，由GAN把草图转化成真实的风景图像，然而在这类模型当中，用户没办法凭借文本去影响生成结果。

升级之后的模型，添加了CLIP的“指导”，能够达成跨模态的图文生成，让用户得以用文字辅助AI作画，例如VQGAN+CLIP，原因是CLIP打通了文本和图形域，使得用户输入的文本与GAN生成的结果具备了可比性，进而通过计算二者的误差来实现用户真正期望的结果。

依托更为丰富多样的内容形式，以及更低的售卖价格，还有更强的便于携带的特性，VR设备的数量有希望冲破主机达到4000万台的那个上限。相较于主机而言，VR并非仅仅局限于游戏领域，而是依据沉浸式的特质朝着视频、直播、健身、社交等更多的内容形式进行拓展，丰富程度明显得到了提高。在硬件这个层面，VR一体机售价处于2000元至3000元之间，这显著低于传统家用主机3500元至4000元的售卖价格，而且不需要用电源来供电，与不需要连接显示屏，这突破了家用主机在场景方面的限制。就主机三大品牌展开横向比较而言，售价相对更低的，更为轻便的，使用场景更为多样的，也就更受大众欢迎，在2021年，其2080万台的出货量，远远超过了PS 的1370万台以及Xbox的800万台，由此能够看出，大众对于定价较低且具备便携特性的硬件，接受程度更高。所以我们觉得，VR设备有希望依靠更丰富的内容，更低的售价，更强的便携性，去覆盖更为广泛的用户群体，其年度销量有希望突破主机4000万台的上限。

而GAN存在像训练不稳定情形，生成样本大量重复且相似，还有图像压缩等问题亟待解决。这致使扩散模型 model迅速崛起，甚至有期望超越GAN。实际上它早于GAN被提出，然而因靠大模型达成，故而对多数用户而言进入门槛较高，研究者数量也不多。直至2021年，因Disco 、DALL·E2、 AI等等，才开始被更多人知晓。

最初，受到热力学概念的启发，扩散模型借助增加噪声来破坏训练数据，以此进行学习，随后，找出怎样逆转这种噪声过程，目的是恢复原始图像，一旦经受训练，扩散模型能够应用这些去噪方法，从随机输入里合成新颖的“干净”数据，相较于GAN，在所需数据更少的情形下，模型的图像生成效果有着明显的提升。

有一种模型，它的代表是Disco，原本是被搭载在Colab之上，这个Disco的特点在于，它擅长去处理抽象画面，可是呢，在具象生成以及较多描述语句这方面，其效果不太理想。之后出现了DALL·E2，还有AI，它们对于文本指令的还原度更高，然而，DALL·E2在技术层面，是CLIP模型与另一种模型相结合而成；而AI呢，则是通过纯语言模型（T5 - XXL）来达成文字到图像的转换。

第一点，AI绘画作品荣获人类美术比赛的第一名，大规模应用或许就在朝夕之间。第二点，2022年PICO持续不断地强化营销力度，全年出货量有希望同比增长超过6倍，达到113万台。

因一副名为《太空歌剧院》的 AI 绘画作品，在以人类绘画作品为主的美国科罗拉多州博览会的美术比赛中荣获第一名，使得近期 AI 绘画备受高度关注，进而引发了关于 AI 绘画的争议，该作品是获奖者在经由 AI 绘图生成后又进行了调整，其上手难度极低且具备较强商业价值，近期《经济学人》杂志还用生成的图片作为了封面，前期经 AI 绘画生成，后期借助 PS 调整，作画效率会大幅提升。AI绘画大规模被应用，或许已经到了黎明期，这是由于《太空歌剧院》获奖这一事件。

当下，AI绘画并非仅局限于PC端，并且对于显卡的要求也并不是对于创作的限制了，在iOS系统以及安卓系统都上线了多款AI绘画App，其中，iOS App Store里面最热门的AI绘画App属于《Dream by Wombo》，截至2022年上半年，平台用户已经创作出了一千万以上的画作，该App的安卓版本在上线一个月的时间之内，下载量超过了一百万次。

《Dream by Wombo》的操作页面，其可视化程度是比较高的，上手难度是比较低的，并且CLIP模型的随机性能，是可以保证不会生成两个相同作品的。用户在该平台上，输入各种跟风格、主题、氛围相关的关键词后，AI就会依据这些关键词，在互联网上搜索相关的资源素材，然后将其进行糅合与拼接，从而形成一些符合要求的画作，同时还有多种艺术风格可供选择。CLIP的加持，致使同一关键词会随机生成不同图像，这让所有用户都能够创作出独一无二的作品。

AI绘画元年，在下一代互联网望大放异彩

2.1. AI绘画黎明将至，商业化潜力仍待发掘

我国 AI 绘画用户主要集中于一二线城市里的年轻人，这类人群更愿意去尝试新事物，按照 6pen 的调研，国内AI绘画用户年轻化特征显著，46%的用户是大学生和研究生，18%的用户是初中生和高中生，在地域方面，北京占8.7% ，深圳占7.8% ，南方城市占比相较于北方更高。

对用户行业分布来说，是以美术设计类以及互联网工作作为核心的呢，这和AI绘画的商业性应用存在十分紧密的关联哟。依据6pen所做的调研情况，AI绘画的用户当中差不多有半数是来自美术设计类和互联网行业的呀，AI绘画能够对设计类工作的推进起到辅助作用呢，并且对游戏等互联网行业也有着一定的帮助呀，这几类行业将会是AI绘画模型的核心商业方面的受众呢。具体使用方式上，近40%用户依赖在线服务，早起AI绘画模型因对显卡高要求致使部分配置难以良好运行AI绘画系统，不过随着、等新应用上架，电脑配置要求会进一步降低。

关于AI绘画商业化，用户付费处在摸索时期，B端付费潜在性更大，并且借助AI绘画无法得到较高收入。依据6pen的调研情况而言，60%的用户在AI绘画产品上从未有过付费举动，在剩下40%的用户里，付费超过100元的占比仅仅10% 。现阶段，AI绘画的盈利途径较为单一，大多是按照生成图像的次数来付费，或者是通过缩短生成时间来付费等情况，在尚未大规模运用AI绘画以前， C端用户存在着，目的性比较微弱的条件下，付费意愿并不强烈，然而要是B端应用成熟起来，付费的可能性会相对更高一些。另外，AI绘画的用户主要是出于娱乐目标，只有极少一部分用户能够从中获取收入哟。

首先，于AI绘画的用户认知方面，已然存在相当数量的用户认同AI绘画对人类工作所带来的助益，并且在2022年，更多用户着手接触AI绘画，这一年，或许会成为AI绘画的元年。依据6pen的调研情况来看，尽管有42%的用户觉得AI绘画仅仅能够满足娱乐需求，然而却有超过50%的用户认为AI绘画能够替代一部分，甚至是完全颠覆当下的工作方式。伴随多款具备低门槛特性的AI绘画产品在2022年发布，多数用户开始接触AI绘画，所以2022年有希望成为AI绘画元年。

2.2. 应用更新迭代，有望成为图片内容生成重要辅助

具体来说，针对AI绘画产品，Disco、、处于排名前三的位置。Disco是成熟的AI绘画应用型产品，其拥有较好的用户基础。它于2022年8月下旬发布，技术门槛进一步降低，储备显卡成本也进一步下调，并且具备更多的风格化特点，还有更简易的训练框架，从而迅速成为成为AI绘画热门应用。它凭借AI绘画作品获人类美术比赛一等奖，进而名声大噪。

于艺术家视角而言，对AI绘画大体秉持保守态度，版权问题或许会成为AI绘画产品所要解决的关键所在。依据6pen针对艺术家展开的问卷调研，7%的艺术家声称自身作品风格已被AI模型学习，更多的则表示无法确定。但不管怎样，超过90%的原创艺术家表明会对AI运用自身风格有所介怀，期望AI绘画的相关作品能够向版权付费或者有所标注。现下，依旧存在着数量相对较多的，借助对互联网里面相关图片元素展开搜寻，进而开展艺术创作的AI绘画模型，其背后所关联到的版权方面问题，必将成为AI绘画朝着前进方向发展，急需将其解决的重点之处。

对于市场空间而言，在未来的五年时间当中，或许会有百分之十至百分之三十的图片内容是通过AI参与生成的，与之相对应的是，这么一来很可能会具备600亿以上的市场规模。在当下这个阶段，AI绘画技术处于持续快速发展的状态，越来越成熟且易于使用的产品持续不断地推陈出新。基于这样的情况，AI绘画现在已经能够承担图片内容生成的辅助类工作，可以由AI来提供前期初稿的形成，后续再让创作者作出调整，如此这般，将会提升内容产出的效率。按着6pen所做出的预测来讲，要是在未来的五年之中，有10%至30%的图片是在AI的协助之下得以诞生的话，那么将会创造出超出600亿元的市场空间了，要是再把下一代互联网对于内容需求的快速提升这一因素考虑进去的话，那么就有可能创造出更为庞大的市场规模了。

2.3. AI绘画的星辰大海，文字转3D箭在弦上

凭借NeRF神经辐射场模型，AI绘画正试着从2D朝着3D进行生成，这给VR设备以及下一代互联网建设提供了关键助力。3D或许会是下一代互联网的“标配”，不过这也表明内容量会呈指数级增长，AI会成为内容创作的核心辅助手段。从技术层面来讲，2020 - 2021年推出的已然能够生成可自定义的3D图形，并且能进一步形成视频内容，然而因为GAN在对抗训练中会受样本特征的限制，该模型对于人类的生成还没有良好的解决办法。但，NeRF模型，借助深度学习，达成了计算机图形学领域里的3D渲染任务。

关于NeRF模型的探寻，动态NeRF、全场景NeRF、光影变化成效、接近实时产生等细分领域都有产品被推出，然而关键要点却在于依据单张2D图像来生成3D模型，在2022年被推出的就已经具备此类能力。AI绘画在这一范畴的突破有希望让用户上传2D照片就能生成逼真的3D形象，进而拥有在VR世界里的出色“替身”。

于其朝着更深入的方向去推动探索而言，或者是针对于文字转变成3D模型实施直接性的转化情况之下，借助于AI所提供的助力，仅仅只要将幻想世界的文字进行输入，便能够去生成出一个全新的3D空间。当下，文字往2D图像所进行的跨模态生成已然达到成熟的状态，伴随2D朝着3D模型转换这一个过程的不断发展，可以作出这样的推断，即从文字作为起始点来看是有着创造3D世界的可能性的。此项技术对于游戏等诸多行业而言或许会产生一定的帮助作用，同时也能够促使以VR等设备作为入口的下一代互联网达成内容数量以及质量方面的重要突破。

风险提示

与AI绘画有关的技术发展没有达到预先期望的程度。如今不管是GAN模型，还是模型，亦或是CLIP模型，又或是最新的NeRF模型，都分别存在着显著的不足之处，要是问题不能够被及时处理好，那么就有可能致使AI绘画的发展低于预期。

商业化向外部的延伸出去的进展比预先期待的要低。人工智能绘画具备有能够成为内容创作方面的重要辅助工具的能力，可是要是因为版权等相关方面的问题致使作品的产出受到一定的限制，那么就有可能对商业化往进一步拓展的进程产生不小的影响。

团队介绍

陈筱首席分析师

邮箱：

电话：

证书编号：S03

陈俊希分析师

邮箱：

电话：

证书编号：S09

张昱分析师

邮箱：

电话：

证书编号：S01

李芓漪分析师

邮箱：

电话：

证书编号：S05

免责声明

本报告是给下面那个简称为 "本公司" 的客户使用的，本公司不会因为接收人收到本报告就将其看作是自己当然的客户，本报告只会在相关法律允许的情形下发放，并且只是为了提供信息才发放，一点儿都不构成任何广告。

本报告信息源自已公开资料，本公司对该等信息的准确性、完整性以及可靠性不做任何保证，本报告所载资料、意见与推测仅反映本公司于发布报告当日的判断，本报告所指证券或投资标的的价格、价值以及投资收入会有升跌，过往表现不应作为日后表现依据，在不同时期，本公司会发出与本报告所载资料、意见及推测不一致的报告，本公司不保证本报告所含信息维持在最新状态。与此同时，本公司针对本报告当中所含的信息，能够在不发出通知的这种情形之下做出修改，投资者理应自行去关注相应的更新或者修改的情况。

本报告里所讲的投资以及服务，也许不适用于个别客户，并非构成客户私人咨询类建议。无论处于哪一种情况，本报告之中的信息亦或是所表达的意见，都绝非构成对任何人的投资方面的建议。不管在何种情形下，本公司加上本公司员工加入或者关联机构，都不主动保证投资者必然获利，不跟投资者一同分享投资收益，并且也不对任何人因为使用本报告之中任何内容所引发导致的任何损失担负任何责任。投资者一定要特别留意，其依据此做出的任何投资方面决策跟本公司、本公司员工或者关联机构没有关系。

本公司借助信息隔离墙管控内部信息流动，此信息流动涉及一个又或者多个领域、部门以及关联机构，投资者应当留意，在法律允许的情形底下，本公司及其所属关联机构存在可能性持有报告中提及公司所发行的证券或者期权，并且开展证券或者期权交易，还可能为这些公司给予或者努力争取给予投资银行、财务顾问以及金融产品等相关服务。在法律许可的状况下，本公司的员工有可能担任本报告所提到公司的董事。

投资市场存在着风险，进行投资的时候需要谨慎对待。投资者不应该把本报告当作做出投资决策的仅有的参考要素，也不应该觉得本报告能够替代自身的判断。在决定进行投资之前，要是有需要的话，投资者一定要向专业人士去咨询并且谨慎地做出决策。

此报告的版权，仅仅归本公司所拥有，没有经过书面许可，任何机构以及个人，不可以用任何形式去翻版，去进行复制的举动，并不能发表，也不能引用。要是征得本公司的同意从而进行引用、刊发之事的情况，需要在被容许的范畴之内去开展使用行为，并且要注明出处是“国泰君安证券研究”，并且绝对不可以对于这家公司的报告，采取任何有违背本义的引举动，以及开展删去片段部分的行为，还有不能进行修改。

若有本公司以外的其他机构，以下简称“该机构”，发送本报告，那么由该机构独自对这发送行为负责。通过此途径获得本报告的投资者，应自行联系该机构以要求获悉更详细的信息，或者进而交易本报告中提及的证券。本报告不构成本公司向该机构之客户提供的投资建议，本公司、本公司员工或者关联机构，亦不为该机构之客户因使用本报告或报告所载内容引起的任何损失承担任何责任。