AI创造力狂飙,3D数字人登场,未来APP皆似‘人’?
从文字,到图片,再到视频,AI的创造力在二维世界一路迅速提升。我们对其对答如流感到惊叹,也为Sora的超现实视频而震撼,可是这一切精彩,都被限制在冰冷的屏幕上,终究只是一串流动的像素,不能用真实的肢体与我们进行交流,。
实际上的接下来一站,是要使AI摆脱平面状态,具备一个能够于三维空间里进行表达以及交互的躯体。
在这样的背景情形之下,硅星人瞧见了一个于3D领域范围当中最难达成的,3D数字人的生成平台,也就是魔珐科技旗下的星云平台,它是一个覆盖了从文本直接生出包含语音、动作、表情在其中的完整3D表达的AI平台。
魔珐CEO柴金祥,对硅星人讲述了,他所做出的判断:“在未来,每一个APP都将会是一个‘人’。你将不再需要进行点击填表的操作,只需要朝着屏幕上的‘她’讲话,她就会理解你所提出的需求,并且会运用语言以及肢体动作,为你完成所有的事情。”
从二维到三维,这不单单是维度方面的跨越,更是一场有着深刻意义的交互革命。当人工智能最终获得身体,我们的数字生活将会存在怎样的改变呢?怀揣着这个疑问,硅星人对星云平台展开了测试,尝试去理解:当人工智能拥有“身体”之后,技术实现到底是什么,应用场景又会出现什么样的变化。
实测星云:秒回复、零卡顿、自然表达
星云平台最具颠覆性的要点在于,它将创造3D数字人的权限,给予了每一个普通开发者,你自此无需专业的建模队伍或者动画团队等参与,仅需于网页之上动动手指,略微调整一些参数,便可诞生一个专属的数字人,它拥有实时互动、语音播报、多语种切换,甚至能直接生成视频等全面具备的功能 ,所有尔等所需的功能,皆已如同打包般为你准备妥当。
一张嘴,我便察觉到了异样。我们说出5000元的预算,道出办公需求,他差不多马上便给出了三款最新的型号方案。涵盖联想、戴尔以及华为,每一款的CPU、内存还有续航,他都阐述得清清楚楚,仿若一位着实懂行的友人在为你用心挑选 。
他介绍硬盘参数时,我们未曾预告地打断他,提出要看更便宜机型,他仅停顿约一秒,便马上领会我们新意图,还不着痕迹地切换至新推荐,推出了最新款式。
为了去探索更多不一样的场景,我们再次进行了测试,测试了两个完全不同的角色,其中一个是那种对待事情十分认真、一点都不马虎的招聘面试官,另一个是情感方面非常细腻的AI虚拟男友。
我们于新的一个工作岗位,让他以英文开展面试。他的呈现仿佛真切的HR:提问具备逻辑性,从项目经验起始,至技术栈,再到解决方案,英文输出十分自然,且会依据回答进一步追问细节。然而AI虚拟男友的关键并非把信息传递出去,而是给予陪伴感。最为显著的是肢体语言跟情绪的适配,会摆动双臂去配合撒娇的语气,在安慰之际会做出轻拍肩膀的动作,语气温柔之时表情也会变得柔和。
进行测试之后,所获得的最大感受是,于其时,能感觉到你并非是在跟一个机器人展开对话,反而是处于与一个仿若“活生生”的虚拟角色去交流之状态下 ,。
不论是专业术语,还是情绪表达,又或是突然改变的需求,他都能精准捕捉话语背后的意图,不会答非所问,然而更重要的是,他拥有自身的“身体语言”,他不再仅是一个会动的嘴巴,推荐产品时自信的手势,撒娇时俏皮的摆臂,面试时专注的神情,皆伴随对话实时生成。
破解数字人的“不可能三角”

在流畅的用户体验背后,是星云平台的技术创新。
数字人行业有着一个长期没能解决的“不可能三角”,该“不可能三角”表现为三个方面,其一,若要质量加上低延时,那么成本便会激增,进而失去规模化的可能;其二,若要高并发加上低成本,那就必须牺牲质量;其三,若要质量加上高并发,则延时就会有所上升,从而无法实现实时交互。星云平台借助模型层面的技术突破以及系统层面的架构创新,去解决这个“不可能三角” 。
星云的核心技术,是由LAM(Model)来驱动数字人,它是一个文本生成多模态3D的大模型,LAM的输出并非文本或者图像,而是“身体语言”,这个差异决定了数字人的能力边界,传统数字人处理的是“说什么”的问题,而LAM要解决的是“怎么说”,同样一句话在不同场景下,语调会完全不同,节奏会完全不同,表情会完全不同,手势会完全不同,这些细节才是让数字人显得自然的关键。
具体来讲,当把文本或者语音输入之后,模型所要理解的,不单单是字面之中所包含的意思,还涵盖着情绪方面的基调,以及场景所处的语境,还有表达的意图。举例说明,同样是“好的”这两个字,在客服所处的场景之中,呈现的是确认的语气,在虚拟陪伴这种场景之下,有可能是撒娇的语气,在招聘场景里,却是正式礼貌的一种回应。
理解语义之后,模型会同时生成四种模态的3D表达信号:
这四种模态并非分开处理后再进行拼接,而是同步生成的,模型所输出的是对于“这句话应该怎么说”的完整理解。
然而仅仅具备LAM模型是不足够的,怎样使其能够快速地运行,以低成本进行部署,并且支持大规模并发呢,这是需要从系统架构的层面去重新开展设计的,传统数字人方案所具有的流程是,在云端对完整的视频实施渲染,之后将其传输至用户的设备,接着进行播放,这个流程存在着几个方面的问题,渲染3D画面是需要高性能GPU的,在云端所产生的成本是极高的,传输视频流是需要大带宽的,每一路用户每秒会占用数十MB,视频的生成以及传输均是存在延时的,是难以做到实时交互的,当用户量出现上升之后,云端的压力会呈现出指数式的增长,是难以实现规模化的。
流程被星云改变了,云端仅负责生成参数,画面不进行渲染,LAM模型接收文本,生成语音参数(音频波形特征)以及动作参数(3D骨骼、表情、手势等控制信号),这些参数的数据量极小,仅几KB到几十KB,接着把这些参数传输至用户设备,这里传输的并非视频流,而是“如何渲染”的指令。
用户设备接收参数,之后,通过端侧AI渲染模块将参数实时转化为画面,此模块能够运行在,等百元级国产芯片上,并不需要高端显卡,整个链路的延迟处于1秒左右,云端生成参数,端侧渲染画面,用户看到数字人说话,这个过程是实时的。
这种架构带来了变化,延时从秒级降到了毫秒级,带宽从每秒数十MB降到了KB级,云端能够支持千路以上同时在线,并且云端无需配备大量GPU,端侧能用百元级芯片,整体成本据称下降到了传统方案的几十分之一,端侧AI渲染模块可以运行在如手机、平板、智能屏、车机等各种设备上。
技术方案背后,存在一个关键问题,LAM模型从何处学会“与某句话对应的动作该是什么”,魔珐创始人柴金祥告知我们有这样的情况,在3D数字人领域,最大的壁垒并非算法,而是数据,文本、图片在互联网上到处都能见到,然而高质量的3D动作、表情数据几乎是不存在的。
从2018年起,魔珐就已开始累积这样的数据,早期,在为游戏公司制作3D内容之际,那些商业项目所产生的动画数据,经过脱敏处理后,成了训练数据的一部分,后期,完全是自研跟制作动画数据,专门组建了动画团队,针对LAM模型的训练需求,制作具备各种场景,拥有各种情绪,涵盖各种表达方式的3D动画,目前,累计有数千小时的高质量3D动画数据,包含人脸表情,手部动作,身体姿态,多人互动等完整数据集。
那些数据,有着它的积累周期,还有成本投入,正是这些,搭建起了星云平台难以被复制的护城河。
从数字人到 Agent

要是仅仅将星云视作“做3D数字人的平台”,那就会错失它真正的技术定位。
星云把自身界定为语言带动身体的具身智能平台,它并非内容生产工具,而是针对开发者的基础设施 ,它输出的并非渲染好的视频或者动画,而是“动作参数”,这些参数能够驱动虚拟世界的3D数字人,还能够驱动物理世界的人形机器人。
首先,我们得区分清楚两个概念,AI也就是具身智能,它指的是那种能让AI拥有身体感知与行动能力的智能形式,AI不光会思考,还能够借助身体与环境进行交互,Agent也就是具身智能体,它是这种智能的具体承载者,是拥有身体的智能体,能够在虚拟或者现实空间里进行感知、表达、行动以及交互,它们的区别在于,具身智能是一种能力,具身智能体则是拥有这种能力的载体。
星云将自身定义成是“具身智能3D数字人平台”,着力点放在Agent层,它提供“身体”,把“身体”当作承载智能的器物,大模型已然给出了“大脑”,目前所欠缺的是使得这“大脑”能够被看见、能够进行交互的“身体”,一个AI客服能够运用文字去回答问题,也能够借助语音去回答问题,然而这些方式均是“无形”的,星云的作用是给这个AI增添一个“身体”,也就是3D数字人形象,致使它能够凭借表情、手势以及肢体语言来表达情绪与意图。这个“身体”不只是视觉呈现,而是完整的表达系统。
将SDK或其他API作为接入途径,开发者得以接入星云,如此一来,他们自己所拥有的AI应用便能具备数字人形态,这里面的逻辑跟AWS的情况是相似的 ,AWS并不会去做具体类型的应用 ,然而它会向开发者提供计算、存储以及网络方面所需的基础能力 ,开发者依靠这些基础能力进而构建起应用 。
更为深入的技术规划存在于,从虚拟朝着物理的统一输出格式。星云的底层是LAM模型,输入文本,输出语义相符的三维动作、表情、手势,继而输入语音,输出语义一致的三维动作、表情、手势。这表明星云的功能并非局限于使AI在屏幕上能够被看见,它有可能成为连接虚拟智能与物理智能的接口。
根据硅星人所得知的情况,魔珐当下正在跟多家展开合作,以对这条技术路径予以验证。他们所提供的并非是完整的机器人方案,而是“语言→动作”的那一层转化:机器人厂商承担着硬件以及控制系统方面的工作,星云负责使机器人能够理解对话内容进而生成对应的肢体表示。
结尾:
从AI转变至Agent,星云平台所开放的并非仅仅是API接口,而是通向“每个APP都是一个人”时代的入口,。
这一判断听起来激进,然而逻辑清晰,在过去十年间,AI的进化路径是从“专用工具”迈向“通用助手”,先是由只能识别图片的算法,进而发展为能对话、能写作、能推理的大模型,不过这些AI依旧是“看不见”的,用户借助文字框或者语调交互,所感受到的是智能,却看不见实“人”, 。
星云所要做的,是给那些AI加上“身体”,并非仅仅是视觉形象,而是完整的表达系统。当AI切实拥有“身体”,从“看不见的算法”转变为“站在你面前的伙伴”,人机交互方式将会被重新定义。
这样的重新定义并非仅在虚拟世界出现,从屏幕里的3D数字人直至物理世界的人形机器人,星云所打通的乃是同一条技术链路,即语言驱动身体,LAM模型输出的动作参数,既能被渲染成虚拟形象,又能够控制物理机器人,这表明未来的AI应用,或许会同时现身于两个世界,线上是数字人客服,线下是机器人接待员,线上是虚拟健身教练,线下是陪伴型机器人,它们运用同一套“大脑”,只是“身体”形态有所不同。
以当下情形而言,具身智能时代终极为何,我们暂时还难以去预见,不过能够确定的一点是,我们此刻正在经历的,并非仅仅只是技术层面的升级,而是那种牵涉到交互范式的转变,具体表现为,由人去适应机器,转变为机器能够理解人,星云所提供的,乃是促成这个转变得以发生的基础设施,一切其实才刚刚开始。


欢迎 你 发表评论: