首页 每日干货分享 Sora刷屏后现现实问题:数字人难成实时交流起点与真智能伙伴

Sora刷屏后现现实问题:数字人难成实时交流起点与真智能伙伴

发布时间: 浏览量:33 0

那些由 Sora 生成的影像,它们既熟络逼真又显得抽象,最近大概率在将你的,社交媒体刷屏了。

Sora呈现病毒式传播这一情况,证实了AI生成内容存在的一条黄金法则,那就是人类最为着迷的始终都是人类自己。这些影像能够快速变成一种赛博奇观啦,而且它的传播力超越了以往的所有 AI 视频呢,原因在于它首次高质量地把创作主体从风景、动物那儿,转移聚焦到人类自身了。

但热潮过去之后,一个更为现实的问题显现出水面,Sora生成的数字人,不论多么逼真,本质上依旧是活在预设脚本里的「演员」,它们是内容生成的终点,然而却无法成为实时交流的起点,在这种「文生视频」的范式以内,AI被困在一次性的创作流程当中,这和一个能随时响应、无处不在的智能伙伴相差很远。

那为什么一个能随时响应的 AI 数字人,至今仍未普及?

主要原因就是成本。

而这一矛盾,正是下一轮技术演进的发力点。

在 10 月 29 日,魔珐科技正式发布了 3D 数字人开放平台「星云」,其核心在于将过去那种本来属于大企业预算范畴的「项目制」奢侈品,转变成所有开发者都能够借助 SDK 迅速进行集成的基础能力。

魔珐科技曾是 3D 数字人领先提供商之一,知晓不少企业听闻高昂部署价格后会望而却步。其近期有技术突破,精准打击了这一核心痛点,凭借自研 AI 算法,替代了传统渲染流程对高端 GPU 的重度依赖,如此一来,生成的数字人既保证了高质量,又能在百元级芯片上流畅运行。

一个高质量且可交互的3D数字人,大幅地降低了运行成本,其意义远远超过了技术本身,这意谓着,AI终于得到了入住每一块屏幕的入场券,未来,不管是手机App,还是汽车座舱,又或者是商场里的一块普通广告牌,都有可能成为一个能够与你自然对话的智能体,人机交互的下一个范式,或许正因此而开启。

01

[]

让 AI 的「具身表现力」变成基础设施

要先弄清楚一个事实,在理解魔珐科技发布的「星云」平台之前,那就是我们如今于屏幕上所见到的「数字人」,并非源于同一种技术,它们看上去类似,可背后却是因不同时代、不同成本以及不同妥协而产生的产物。

最常见的一类 ,是预先制作 ,为「2.5D」视频 。这类数字人 ,表现更像高级的 ,为「PPT 动画」 ,借助 AI 技术 ,把文本合成 ,成为一段带有口型 ,还有简单动作的视频 。其中 ,它们解决了信息播报的需求 ,然而本质上 ,却是「只读」的 ,无法进行任何实时的 ,以及个性化的交互 。

更往前一步的,是那种借着「中之人」(也就是背后有真人在进行实时驱动的)的虚拟主播,这类方案确保了高质量的互动性,然而其成本和真人没什么差别,没办法实现规模化,并且也不是真正意义上的「人工智能」。

可实时交互的 3D 数字人里,完全由 AI 驱动的那些,才真正代表着未来。

这里面存在着一个明晰的逻辑,大语言模型于理解、推理以及生成内容方面的“智商”,已然获得了广泛的认同,当这颗强大无比的“大脑”被给予一个具备表达能力的“身体”时,人机交互将会产生质的变化,借助增添带有人类情感温度的语音(富有情感)、能够传达微妙情绪的微表情以及建立信任感的肢体语言,AI的回应将不再只是单纯的信息传递,而是一场完整的、个性化的交流。

它有希望提供一种超出「皮下之人」(中之人)的服务体验 ,AI没有情绪疲劳 ,能够7x24小时维持最佳状态 ,它能够瞬间调动全部知识库 ,给每一个用户给予深度定制的反馈 ,最要紧的是 ,这种具备高质量的极度个性的服务能力 ,首次能够被无限地低成本地规模化复制 ,这是人类服务者永远没法企及的优势 。

魔珐科技是此领域先行者之一,然而,在这之前,纯AI驱动一直面临一道难以跨越的“成本高墙”,致使其商业模式长年停留在项目制。

这实时的3D数字人之状,恰似那需要7x24小时不停歇渲染的3D动画的情形。它的每一个微表情,要进行复杂图形计算(渲染)与物理演算(解算),它的每一次手势,要进行复杂图形计算 (渲染)与物理演算(解算),它的每一根发丝的飘动,得进行复杂图形计算(渲染)与物理演算(解算),它的衣物的褶皱,也得进行复杂图形计算(渲染)与物理演算(解算),如此这般了才能确保逼真且流畅。于传统架构当中,这些计算的沉重负担,差不多全落在云端那高端的GPU之上了。

便产生了这样一个难以调和的矛盾,若要确保高质量,那就得投入高额的 GPU 资源,致使单路交互的部署成本轻易就突破数万元;一旦要削减成本,那就只能舍弃质量还有实时性。由 GPU 搭建起的这堵高墙,把真正的交互式 AI 数字人,排斥在更广泛大众的应用范围之外 。

但是,这次所发布的「星云」全新的管线,却完全重新构建了这个流程。借助自研的 AI 算法,替换了传统渲染流程对于高端 GPU 的严重依赖,一下子解决了成本以及延迟还有并发这三座大山。

新的技术栈将任务进行了巧妙的分工:

这一模式,巧妙地绕开了,最大的成本中心,它既不需要,用户拥有一部,搭载高端芯片的手机,也无需为云端,昂贵的GPU付费,由于终端的,AI渲染模型,是用最高质量的,离线渲染数据训练而成,它学会了用极低的算力,「复刻」出媲美高端GPU的,画面效果,这直接解锁了,高质量低成本的,数字人的应用空间。

官网所提供的样例呈现出这样的状况,关于其唇形同步而言精准度达到了极高的程度,完全不存在廉价数字人通常所具有的那种“木偶感”,这一情况能够证明这一路径是具备可行性的。

ai数字人交互屏_星云3D数字人开放平台_AI数字人交互平台

更为关键的是,架构创新呈现出「云端决策、终端渲染」这种状况,并且引发了一系列的连锁效应,一下子处理好了长久使 受困的另外两个瓶颈之处 。

首先存在延迟问题,在传统模式条件下,云端将视频渲染完成之后再传输至用户端,网络延迟成为巨大瓶颈,而「星云」所传输的仅仅是KB级别的参数流,该数据量远远小于视频流,极大地使得网络耗时降低,进而把端到端的总延迟平稳控制在 1.5 秒以内,达成了接近人类对话的响应速度。

其次存在并发能力,因最耗费资源的渲染工作被下放至不计其数的终端设备上,云端服务器压力获极大释放,它无需为每个用户配备一张昂贵的 GPU,进而具备支撑千万级用户同时在线交互的能力,为规模化应用清除障碍。

曾经,企业要是想拥有一个数字人,得历经数月时长的需求沟通,还得进行美术定制以及展开技术开发,,而星云发布了,这表明随便哪一个开发者,只要经几行代码去调用SDK,就能够给自己的App、小程序或者任意一块屏幕,迅速「激活」一个能言善辩的AI数字人。

02

当 AI 的「身体」出现,

世界将如何改变?

曾经,非标准且高门槛的能力,也就是那个「具身表现力」,当它变成基础设施的时候,将会打开一个全新的应用空间,而且这个空间会让AI从「后台工具」走向「前台伙伴」。

在过去之时,我们与 AI 进行交互,其本质上是属于一种非对称的、功能驱动的关系。其中,我们会朝着一个无形的黑盒方面输入指令,而它将返回一个结果。然而,当 AI 拥有了一个能够实时互动、传递情感的「身体」的时候,这当中的一切或许都将会予以改变 。

拿我们熟悉的 AI 陪伴做例子。

并非是一种全新概念的AI陪伴,长久以来受困于两种不完整形态中,其一为欠缺「在场感」的纯文本聊天机器人,其二是无法实施视觉交流的智能音箱,它们虽能够供给信息然而却难以构建起真正的情感方面的连接。

可能彻底改变这一现状的,是「星云」所代表的技术路径。一个有存在感的「人格」,作为具身化的AI伴侣,能传递出文本和语音无法承载的共情与专注。其传递凭借眼神接触、点头、微笑等非语言线索。它不再只是冰冷的问答机器,成了能「看着你」、「听着你」说话的存在 。

更关键的原因在于,过去的技术无法同时满足低成本与低延迟。

要使一个AI“边听边回应”,并且在对话里自然地作出点头、注视、微笑等细微动作,这并非仅仅是动画渲染的问题,它还需在毫秒级的延时内达成感知、推理与生成,对算力、算法以及网络延迟的要求极高。

更为复杂的是,我们期望这个数字人,它不仅能够反应灵敏,还能够「认识你」,它要有独立的人格,可以记住每个人的偏好以及历史,这就意味着系统必须要支撑高并发的个性化记忆,而并非播放一段事先渲染好的动画。

当运行成本降低到几乎可以忽略的高质量数字人开始运行时,AI陪伴形态便会彻底反转,之前它是一种「公共设施」,之后它会变成一段「私人关系」。

它甚至会现身于你的车载屏幕之上。

然而,于企业端而言,这一套基础设施,极有可能催生出一支不知疲倦的,能力超群的,并且成本极低的「数字员工」大军 。

魔珐科技有所透露,他们正在和多家企业开展合作,一同去探索这一模式在B端的落地可能性 。

在金融、文旅、政务等服务场景比如,有一个「AI理财顾问」,它部署在银行App或大厅屏幕上,它具备整个银行的知识库,它能以极大的耐心,它会解答用户的每一个琐碎问题,它没有情绪,它不会不耐烦,它永远能保持最专业的服务姿态 。

更为关键的是,在用户突然间进行打断行为的情况下,或者是出现临时提出问题这种状况的时候,它能够即刻暂停当下正在进行的讲解,并且可以灵活地做出应答,切实达成那种被称作是「对话式服务」的自然流畅的转换。

通过说话语速变得更为缓慢,以语气变得更加柔和,借助熟悉的面孔,运用贴心的语气,对于那些年龄较大且知晓有限智能设备相关知识的用户而言,这样类型的数字人能够提供相对更具充满温情含义的帮助,以此拉近人与技术之间所存在的距离。

这一切得以达成的根基,同样是技术的大众化。企业不用再为每一路客服支付数万元的硬件费用,就能够轻易地把「数字员工」布置到每一个服务接触点,进而在提高效率之际,确保服务体验的热情和连贯性。

或许,「具身表达力」会深刻使我们获取知识的方式被改变,或许,「将身表达力」会深刻使我们交互沟通的方式被改变。

ai数字人交互屏_星云3D数字人开放平台_AI数字人交互平台

在教育场景中,它能让抽象的知识长出「人格」。

试想一下,当你学习外语之际,你的陪练并非是一个冷冰冰的App,而是一位口型符合标准、表情十分生动的虚拟语伴,能够直观地看到其发音时口型怎样变化,还能获得实时的反馈以及纠正,如此一来学习过程会更具沉浸感,效果也会远远超过传统模式。

在消费电子领域当中,电视制造商正迎来另外一种想象,以往他们一直期望在软件跟服务层寻觅到突破口,然而却受到硬件成本的限制,想要在电视里装入一块高端GPU,只是为了达成流畅的3D交互,这几乎是不太可能的。

「星云」的低成本办法,能促使这种 AI 助手进而直接实施于电视所携带的百元级数的芯片之上运行过程里,借此让「人格化交互」自此首次具备可行前提成为电视标准配置要素之一,而非属于可供选择配置范畴。

于是,电视勿需复杂遥控器,勿需层层嵌套菜单,一个常驻屏幕角落的 AI 伴侣,会成为家庭的交互中心,这不仅是体验的进化,更或许是一场商业模式的重构,AI 首次使电视从「内容入口」变为「关系入口」。

如若讲上述场景仍被限定于屏幕的虚拟 realm,那么该项技术的终极潜能,便在于连通现实——使唤物理世界的机器人 。

魔珐所作的演示,展现出了这样一种可能性,用于驱动屏幕内3D数字人的那一组参数,能够同样被运用于驱动一个物理人形机器人的关节活动。

那个 AI 助手,在虚拟世界里教会我们使用产品,为我们规划旅行,未来或许能直接“下载”到家中服务机器人体内,用同样熟悉的声音,甚至通过屏幕或指示灯模仿出“表情”,与我们进行交流。

这使得机器人切实从一个要学习怎样操作的“工具”,演进成一个能够自然交流的“伙伴”。当AI的“灵魂”跟机器的“身体”借由一套标准化的“表达系统”精妙融合之际,科幻电影里的场景,才切实拥有了映照进现实之可能。

03

一场源自中国的交互创新

发布「星云」平台,这不仅是一次技术方面的突破,更是于全球 AI 竞赛当中,开拓出一条跟主流硅谷范式不一样的、以「交互」作为核心的创新路径。想要理解这场变革的重要程度,最佳的参照系便是 Sora。

Sora展现出当下AI那处于顶尖程度的“生成能力”,其仿若一位具备全方位能力的电影导演,有着借助强大算力,一次性打造出一段逻辑连贯、细节完备的影像“作品”的目标,它的价值存在于“创世”方面,存在于从不存在状态抵达可生成供人观赏的静态世界,然而,一旦生成过程告终,这个世界就如同凝固了一般,它没办法针对外界刺激做出任何全新反应,Sora的交互具有单向性,终点是作品完工 。

AI「表达能力」有一次关键跃迁,此跃迁由「星云」所代表,它宛如优秀的即兴戏剧演员,其价值并非在于一次性的完美演出,而是在于针对台下观众的每个提问,每回打断,都能够做出即时的、恰当的、带有情绪的「回应」,它的世界是动态的、持续演进的,且永远对新的输入保持开放。

这样一种,以“应用”以及“普及”作为导向的创新范式,能够在第一时间于中国结出成果,并不是偶然的。它深深地扎根于中国独一无二的市场,以及供应链和商业化环境。

首先,存在中国市场对于「商业闭环」的执念,当海外大模型公司在算法与参数的「军备竞赛」里持续推高AI的理论上限之际,中国的AI从业者们很早便面临一个更为直接的问题,即怎样让技术落地,怎样实现盈利,在此处,一个单纯的「AI大脑」是不足够的,它必须寻得一个能够依附的「身体」,不管是屏幕,还是终端,又或是机器人,才能够在政府服务、教育、零售、制造等具体的行业场景当中创造价值。此等强烈的商业化需求,使得中国的创新者们,不得不把目光从云端拽回到地面,思索怎样为AI搭建与物理世界相连的桥梁。

其次,中国有着全球最为完备的智能硬件生态,当AI需要“身体”之时,中国可以说是这个星球上最为强大的“身体制造商”,不管是机器人本体、各类交互屏幕,还是AR/VR设备,其背后的供应链、制造能力以及成本工程能力几乎没有可与之匹敌的,把3D数字人的运行门槛降低到“百元级芯片”,这一壮举正是依靠于此 。要说硅谷界定了「AI 大脑」的研发模式,那中国把控了制造「AI 身体」所需的全部要素,从开展设计直至进行量产,构建成一个自然的硬件试验场地。

在这般大背景情形之下,魔珐科技实现崛起,进而成为这宏阔叙事的绝妙缩影,其具备的独特优势,正好全然契合中国市场的需求以及禀赋 。

魔珐有着护城河,这不只在于其创始人柴金祥教授团队具备深厚学术背景,他们是全球最早运用AI算法生成3D动画的先行者,这确保了技术的原创性与深度,更关键的是,在于其过去多年身为3D数字人内容服务商积累的海量且、高质量的专有数据,

具身智能的核心燃料,不只是算法,更是海量的3D视觉与交互数据,在长期为游戏影视及各类企业提供服务时,魔珐并非在象牙塔搞研究,而是在解决一个个真实商业问题之际,积累了中国市场独有的无可替代的3D素材与真实交互数据,当竞争对手还在寻觅数据「养料」时,魔珐早已拥有了一片富饶的「黑土地」。

能够讲,“星云”的问世,恰是顶尖技术理论,于中国这片别具一格的“商业需求 + 硬件生态 + 数据土壤”里,寻觅到的最优落脚点。它存在源自全球前沿的“AI 大脑”,还处于中国市场内,为自身打造出了一副能够被低成本、大规模复制的“AI 身体”。

让AI走出文本框,出现率先情况的是中国企业,世界或许会对和他国相互联系、交流、沟通的「交互」进行重新的定义。

「星云」的意义,并非仅仅是给AI准备了一张能说话的脸庞,而是赋予每一块冰冷的屏幕,具备了获得生命的可能性。它促使「智能」首次变得有温度、有表情,不再只是后台一串冰冷的代码,而是前台一位温暖的伙伴。

这预示的是「人机关系」,它正从过去纯粹功能性的合作,开始朝着更深层次的情感共处迈进,而这场伟大变革,或许才刚刚拉开序幕。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~