数字人应用呈现多点开花趋势，技术政策双轮驱动虚拟世界发展

作者：每日干货分享

发布时间：2025-11-09 20:39:35 浏览量：1 0

这些年以来，越发多的城市去打造数字人IP，大厂引进数字人员工，媒体上线数字人主播，娱乐晚会引进数字人明星，银行推出数字人客服，视频平台出现数字人直播。数字人正展现出多点开鲜花般的应用朝向。这种朝向背后含有的发展逻辑，其一乃数字化人设IP造成的需求驱动；其二是搭建起了虚拟数字世界与线下现实界域的关联桥梁；其三是算法、算力、网络、终端此等的技术进步；其四是数字经济、数字产业这般的政策引导。

在数字世界当中，这些虚拟数字人的外在形象，正变得越发精美逼真，其动作语言，也变得越来越流畅自然，当接入AI大脑之后，它们逐渐拥有了思考能力，具备了形神兼具、持续在线等特性，进而引发了关于数字复活、数字永生的思考。

4月8日，数字人齐聚青岛2023数字文化应用产品发布厅

在数字人外在形象这一方面，存在着超写实数字人、真人复刻数字人、卡通形象数字人等多种形式，在维度上，分为三维以及二维。就外观而言，超写实数字人、卡通形象数字人是由采用计算机绘制点、线、面等矢量几何图形构建的三维模型组合而成，其中三维立体的形象占多数。这些数字人能够完全在计算机系统里进行自由绘制，进而可以呈现出天马行空的艺术设计思想。真人复刻数字人主要是通过采用真人视频拍摄，经过数据训练之后形成的，这类数字人以二维形式居多。由于是真人视频拍摄影像，因此观众不好区分是数字人还是真人。

对数字人语音而言，其涵盖那几种方式包含真人原声配音，真人变声配音，AI机器语音，AI仿生语音等。真人配音方式效果是最为自然流畅的，其关键所在是配音人员声音要与数字人口型相匹配。变声配音乃是借助技术系统把配音人员声音实时处理后变为其他音色的配音。AI语音方式通用性是最佳的，利于转换不同的外语，利于不同人员去操作。此方式运用文本自动转语音的技术，转换后的语音以及数字人的口型变化全都由系统予以控制，极大地提升了制作效率。首先，AI仿生语音会采用真人声音，接着，利用这些声音来进行数据训练，最后，形成机器模拟语音，这种语音近似真人原声。

在数字人动作这块，主要涵盖特定动作组合以及动作捕捉驱动等形式。前一种形式呢，是预先准备好文几种诸如摆手、扭头等固定动作，由操作人员于数字人制作系统里依据内容组合来进行配置，所以动作相对而言较为简单且固化；后一种形式采用动作捕捉系统，让真人去实时驱动数字人，故而躯体动作更为自然且流畅。

结合上面数字人的实现原理，能够明白在数字人相关产业链上，为何会有腾讯、阿里、百度、商汤、讯飞等大厂推出数字人综合解决方案，为何会有诸如Next Human、来画、元享智能云等数字人设计平台，为何会有元娲等数字人应用平台，为何会有青瞳视觉等动捕设备系统供应商，还为何会有瑞云科技等云渲染服务商。

现今，数字人的应用尚处于相对初级的时期，更多是停留在视频里头。有着观感自然流畅，且精美细腻的数字人驱动，需耗费更多的人力、时间、算力以及费用。举例来说，单单数字人形象的设计修改渲染用时大多是以月作为单位，较为快速的人像拍摄和训练起码也以周为单位。仿生语音的训练大多也是以月为单位。所需费用大多是在十几万元至几十万元起步，设计越是精细费用就越高。因数字人形象、数字化场景均需持续更新，所以在资金、人力层面需要持续进行投入。倘若规避这些不利因素，那么应用呈现效果便会在不同程度上出现打折的情况。这同样是数字人内容产品发布频率不高的缘由所在，也是数字人宣传图片与实际视频产品存在较大差距的关键因素。

未来倘若数字人能更智能，实现自动化自然交流，且比之前更易用，减少繁杂的制作工序，那么其应用或许会更普及。大模型驱动的新一代生成式人工智能技术为数字人带来了智慧大脑和魔法技能，会给有着好看皮囊的数字人赋予更有趣的灵魂。倘若未来那种装载着 AI 大脑的数字人，可以跳出视频这一形式，跳跃进入实际生活当中，达成与用户的实时交互，那么在针对那些年龄一老一小群体的情感陪伴、知识传递方面，以及针对普通大众出现的实时直播、在线交流等方面，就会带来更为令人惊艳的体验，从而让数字人拥有更足的温度，具备更强的亲和力。