AI创造力狂飙，3D数字人登场，未来APP皆似‘人’？

作者：每日干货分享

发布时间：2025-10-31 18:30:44 浏览量：50 0

从文字，到图片，再到视频，AI的创造力在二维世界一路迅速提升。我们对其对答如流感到惊叹，也为Sora的超现实视频而震撼，可是这一切精彩，都被限制在冰冷的屏幕上，终究只是一串流动的像素，不能用真实的肢体与我们进行交流，。

实际上的接下来一站，是要使AI摆脱平面状态，具备一个能够于三维空间里进行表达以及交互的躯体。

在这样的背景情形之下，硅星人瞧见了一个于3D领域范围当中最难达成的，3D数字人的生成平台，也就是魔珐科技旗下的星云平台，它是一个覆盖了从文本直接生出包含语音、动作、表情在其中的完整3D表达的AI平台。

魔珐CEO柴金祥，对硅星人讲述了，他所做出的判断：“在未来，每一个APP都将会是一个‘人’。你将不再需要进行点击填表的操作，只需要朝着屏幕上的‘她’讲话，她就会理解你所提出的需求，并且会运用语言以及肢体动作，为你完成所有的事情。”

从二维到三维，这不单单是维度方面的跨越，更是一场有着深刻意义的交互革命。当人工智能最终获得身体，我们的数字生活将会存在怎样的改变呢？怀揣着这个疑问，硅星人对星云平台展开了测试，尝试去理解：当人工智能拥有“身体”之后，技术实现到底是什么，应用场景又会出现什么样的变化。

实测星云：秒回复、零卡顿、自然表达

星云平台最具颠覆性的要点在于，它将创造3D数字人的权限，给予了每一个普通开发者，你自此无需专业的建模队伍或者动画团队等参与，仅需于网页之上动动手指，略微调整一些参数，便可诞生一个专属的数字人，它拥有实时互动、语音播报、多语种切换，甚至能直接生成视频等全面具备的功能，所有尔等所需的功能，皆已如同打包般为你准备妥当。

一张嘴，我便察觉到了异样。我们说出5000元的预算，道出办公需求，他差不多马上便给出了三款最新的型号方案。涵盖联想、戴尔以及华为，每一款的CPU、内存还有续航，他都阐述得清清楚楚，仿若一位着实懂行的友人在为你用心挑选。

他介绍硬盘参数时，我们未曾预告地打断他，提出要看更便宜机型，他仅停顿约一秒，便马上领会我们新意图，还不着痕迹地切换至新推荐，推出了最新款式。

为了去探索更多不一样的场景，我们再次进行了测试，测试了两个完全不同的角色，其中一个是那种对待事情十分认真、一点都不马虎的招聘面试官，另一个是情感方面非常细腻的AI虚拟男友。

我们于新的一个工作岗位，让他以英文开展面试。他的呈现仿佛真切的HR：提问具备逻辑性，从项目经验起始，至技术栈，再到解决方案，英文输出十分自然，且会依据回答进一步追问细节。然而AI虚拟男友的关键并非把信息传递出去，而是给予陪伴感。最为显著的是肢体语言跟情绪的适配，会摆动双臂去配合撒娇的语气，在安慰之际会做出轻拍肩膀的动作，语气温柔之时表情也会变得柔和。

进行测试之后，所获得的最大感受是，于其时，能感觉到你并非是在跟一个机器人展开对话，反而是处于与一个仿若“活生生”的虚拟角色去交流之状态下，。

不论是专业术语，还是情绪表达，又或是突然改变的需求，他都能精准捕捉话语背后的意图，不会答非所问，然而更重要的是，他拥有自身的“身体语言”，他不再仅是一个会动的嘴巴，推荐产品时自信的手势，撒娇时俏皮的摆臂，面试时专注的神情，皆伴随对话实时生成。

破解数字人的“不可能三角”

在流畅的用户体验背后，是星云平台的技术创新。

数字人行业有着一个长期没能解决的“不可能三角”，该“不可能三角”表现为三个方面，其一，若要质量加上低延时，那么成本便会激增，进而失去规模化的可能；其二，若要高并发加上低成本，那就必须牺牲质量；其三，若要质量加上高并发，则延时就会有所上升，从而无法实现实时交互。星云平台借助模型层面的技术突破以及系统层面的架构创新，去解决这个“不可能三角” 。

星云的核心技术，是由LAM（Model）来驱动数字人，它是一个文本生成多模态3D的大模型，LAM的输出并非文本或者图像，而是“身体语言”，这个差异决定了数字人的能力边界，传统数字人处理的是“说什么”的问题，而LAM要解决的是“怎么说”，同样一句话在不同场景下，语调会完全不同，节奏会完全不同，表情会完全不同，手势会完全不同，这些细节才是让数字人显得自然的关键。

具体来讲，当把文本或者语音输入之后，模型所要理解的，不单单是字面之中所包含的意思，还涵盖着情绪方面的基调，以及场景所处的语境，还有表达的意图。举例说明，同样是“好的”这两个字，在客服所处的场景之中，呈现的是确认的语气，在虚拟陪伴这种场景之下，有可能是撒娇的语气，在招聘场景里，却是正式礼貌的一种回应。

理解语义之后，模型会同时生成四种模态的3D表达信号：

这四种模态并非分开处理后再进行拼接，而是同步生成的，模型所输出的是对于“这句话应该怎么说”的完整理解。

然而仅仅具备LAM模型是不足够的，怎样使其能够快速地运行，以低成本进行部署，并且支持大规模并发呢，这是需要从系统架构的层面去重新开展设计的，传统数字人方案所具有的流程是，在云端对完整的视频实施渲染，之后将其传输至用户的设备，接着进行播放，这个流程存在着几个方面的问题，渲染3D画面是需要高性能GPU的，在云端所产生的成本是极高的，传输视频流是需要大带宽的，每一路用户每秒会占用数十MB，视频的生成以及传输均是存在延时的，是难以做到实时交互的，当用户量出现上升之后，云端的压力会呈现出指数式的增长，是难以实现规模化的。

流程被星云改变了，云端仅负责生成参数，画面不进行渲染，LAM模型接收文本，生成语音参数（音频波形特征）以及动作参数（3D骨骼、表情、手势等控制信号），这些参数的数据量极小，仅几KB到几十KB，接着把这些参数传输至用户设备，这里传输的并非视频流，而是“如何渲染”的指令。

用户设备接收参数，之后，通过端侧AI渲染模块将参数实时转化为画面，此模块能够运行在，等百元级国产芯片上，并不需要高端显卡，整个链路的延迟处于1秒左右，云端生成参数，端侧渲染画面，用户看到数字人说话，这个过程是实时的。

这种架构带来了变化，延时从秒级降到了毫秒级，带宽从每秒数十MB降到了KB级，云端能够支持千路以上同时在线，并且云端无需配备大量GPU，端侧能用百元级芯片，整体成本据称下降到了传统方案的几十分之一，端侧AI渲染模块可以运行在如手机、平板、智能屏、车机等各种设备上。

技术方案背后，存在一个关键问题，LAM模型从何处学会“与某句话对应的动作该是什么”，魔珐创始人柴金祥告知我们有这样的情况，在3D数字人领域，最大的壁垒并非算法，而是数据，文本、图片在互联网上到处都能见到，然而高质量的3D动作、表情数据几乎是不存在的。

从2018年起，魔珐就已开始累积这样的数据，早期，在为游戏公司制作3D内容之际，那些商业项目所产生的动画数据，经过脱敏处理后，成了训练数据的一部分，后期，完全是自研跟制作动画数据，专门组建了动画团队，针对LAM模型的训练需求，制作具备各种场景，拥有各种情绪，涵盖各种表达方式的3D动画，目前，累计有数千小时的高质量3D动画数据，包含人脸表情，手部动作，身体姿态，多人互动等完整数据集。

那些数据，有着它的积累周期，还有成本投入，正是这些，搭建起了星云平台难以被复制的护城河。

从数字人到 Agent

要是仅仅将星云视作“做3D数字人的平台”，那就会错失它真正的技术定位。

星云把自身界定为语言带动身体的具身智能平台，它并非内容生产工具，而是针对开发者的基础设施，它输出的并非渲染好的视频或者动画，而是“动作参数”，这些参数能够驱动虚拟世界的3D数字人，还能够驱动物理世界的人形机器人。

首先，我们得区分清楚两个概念，AI也就是具身智能，它指的是那种能让AI拥有身体感知与行动能力的智能形式，AI不光会思考，还能够借助身体与环境进行交互，Agent也就是具身智能体，它是这种智能的具体承载者，是拥有身体的智能体，能够在虚拟或者现实空间里进行感知、表达、行动以及交互，它们的区别在于，具身智能是一种能力，具身智能体则是拥有这种能力的载体。

星云将自身定义成是“具身智能3D数字人平台”，着力点放在Agent层，它提供“身体”，把“身体”当作承载智能的器物，大模型已然给出了“大脑”，目前所欠缺的是使得这“大脑”能够被看见、能够进行交互的“身体”，一个AI客服能够运用文字去回答问题，也能够借助语音去回答问题，然而这些方式均是“无形”的，星云的作用是给这个AI增添一个“身体”，也就是3D数字人形象，致使它能够凭借表情、手势以及肢体语言来表达情绪与意图。这个“身体”不只是视觉呈现，而是完整的表达系统。

将SDK或其他API作为接入途径，开发者得以接入星云，如此一来，他们自己所拥有的AI应用便能具备数字人形态，这里面的逻辑跟AWS的情况是相似的，AWS并不会去做具体类型的应用，然而它会向开发者提供计算、存储以及网络方面所需的基础能力，开发者依靠这些基础能力进而构建起应用。

更为深入的技术规划存在于，从虚拟朝着物理的统一输出格式。星云的底层是LAM模型，输入文本，输出语义相符的三维动作、表情、手势，继而输入语音，输出语义一致的三维动作、表情、手势。这表明星云的功能并非局限于使AI在屏幕上能够被看见，它有可能成为连接虚拟智能与物理智能的接口。

根据硅星人所得知的情况，魔珐当下正在跟多家展开合作，以对这条技术路径予以验证。他们所提供的并非是完整的机器人方案，而是“语言→动作”的那一层转化：机器人厂商承担着硬件以及控制系统方面的工作，星云负责使机器人能够理解对话内容进而生成对应的肢体表示。

结尾：

从AI转变至Agent，星云平台所开放的并非仅仅是API接口，而是通向“每个APP都是一个人”时代的入口，。

这一判断听起来激进，然而逻辑清晰，在过去十年间，AI的进化路径是从“专用工具”迈向“通用助手”，先是由只能识别图片的算法，进而发展为能对话、能写作、能推理的大模型，不过这些AI依旧是“看不见”的，用户借助文字框或者语调交互，所感受到的是智能，却看不见实“人”, 。

星云所要做的，是给那些AI加上“身体”，并非仅仅是视觉形象，而是完整的表达系统。当AI切实拥有“身体”，从“看不见的算法”转变为“站在你面前的伙伴”，人机交互方式将会被重新定义。

这样的重新定义并非仅在虚拟世界出现，从屏幕里的3D数字人直至物理世界的人形机器人，星云所打通的乃是同一条技术链路，即语言驱动身体，LAM模型输出的动作参数，既能被渲染成虚拟形象，又能够控制物理机器人，这表明未来的AI应用，或许会同时现身于两个世界，线上是数字人客服，线下是机器人接待员，线上是虚拟健身教练，线下是陪伴型机器人，它们运用同一套“大脑”，只是“身体”形态有所不同。

以当下情形而言，具身智能时代终极为何，我们暂时还难以去预见，不过能够确定的一点是，我们此刻正在经历的，并非仅仅只是技术层面的升级，而是那种牵涉到交互范式的转变，具体表现为，由人去适应机器，转变为机器能够理解人，星云所提供的，乃是促成这个转变得以发生的基础设施，一切其实才刚刚开始。