OpenAI发布Sora引发全球AI视频生成技术新突破,效果远超此前技术
这几天,听说全球都在热议 Sora。打从去年年初,引发了整个科技领域的军备竞赛以后,就没人乐意在新的 AI 生成视频赛道上处于落后状态了。
有关这个问题,人们先前已有预判,然而却也未曾预料到:AI生成视频这般事物,乃是在文本生成、图像生成之后技术持续向前发展的趋向所在,在此之前同样存在不少科技公司提前行动推出自身的视频生成技术 。
然而在出手并发布Sora之后,我们随即就产生了一种“发现新世界”的体验,这种体验所带来的效果跟之前具备的技术相对比,提升了好几个层次。
由Sora生成的视频,是关于美国西部的淘金时代;这个视频,感觉只要加上个解说以及背景音乐,就能够直接用在专题片之中呢。
汽车卯足劲向前行驶的声音,偶尔还能听到石子与轮胎的摩擦音。
还有这欢乐喜庆的中国舞龙表演,敲锣打鼓人声鼎沸,好不热闹。
在轨道当中,地铁咔哒咔哒地行驶着,同时,还伴随着空气受到压缩从而发出隆~隆~的声响,这使得人产生一种耳塞的感觉。
赛博风被机器人的专属配音直接拉满,听过之后就晓得是那种「熟悉的味道」呀。
惊涛骇浪撞击着岩石,海鸥在高空中飞翔,叫声高亢嘹亮。
老奶奶带着乐呵呵的神情,尽兴地把蜡烛吹灭,那笑容在每一个人的脸庞之上洋溢开来,有那么片刻呈现出美好之态,内心只祈愿时间可以将暂停键按下。
更令人震撼的是,下面这个视频直接配出了「纪录片」的高级感。
到了片尾的时候,表明声称说着,上面种种这些所有的配音完完全全都是由AI生成出来的,不存在丝毫任何一点编辑过后所留下的痕迹内容。
网友惊呼,「这简直离完全由AI生成电影又近了一步」!
堪称突破后的突破!

有一点需要补充说明,其配音并非依据观看视频即刻生成,而是得在后续进行相关操作之后方可完成。
然而,这般梦幻联动着实令人耳目一新,也许接下来所要做的便是进一步拓展多模态能力,把视频以及音频一同展现出来。
届时,遭受变革的并非仅仅局限于影视行业,就连配音领域,甚至就连游戏领域,都将会出现天翻地覆的改变!
那么技术是如何实现的呢?
以简要明述来讲,开展研究之人采用了图像与声音所具备的自然同时状态,以此去研习图像声源定位的模型 。
持续研习近60个小时的音乐演奏,其中涵盖独奏与二重奏,它将声音信号当作输入对象,并对和视频里空间定位相对应的声源信号予以预测 。
于特定的实际训练进程当中,作者另外采用那种大自然声响带有的能累积相加的特性去制作出视频画面,在这当中,形成声音源头是清楚知晓的。与此同时,又借助把声音源头混合起来的方式去开展模型训练以此让其生成声音的源头。
这仅仅是,视觉与音频联合起来开展学习那种研究里的,极短暂的一眼相看,以往于同样这个方向领域里头进行的研究,多到数都数不过来。
就比如说,在ECCV 2018这个时间点被接收的Oral论文当中,那篇名为「to by Video」的论文,同样运用了视觉方面的信息去对声源分离进行指导 。
论文地址:

相较于麻省理工学院开展的那一项研究,这一篇论文,除了于音乐方面,还在自然声这个范畴之上进行了实验。
以往的研究,都将为未来视频-音频完成精准映射进一步铺路。
像是这几天被众人炒得热辣辣的Sora模型,其背后架构所采用的,同样是,正是基于先辈们的成果。
就此而言,网友提出了疑问,“到底要历经多少岁月,LLM才能够全然遵循物理达则里的全部可能参照系呢”?
别慌!
难道有没有一种可能性,其实早就已经处于接近的状态,甚至达到了实现AGI的程度,只是不想让我们知晓这件事呢?
写在最后
在此之前,花费了大概半年的时间去测试它的大语言模型GPT - 4 。要是测试Sora所需的时长差不多,这个极为强大的视频生成工具或许会在8月份开放 。
然而鉴于深伪技术给美国大选所带来的负面作用,推测会慎重思量正式公布Sora的时刻。
总归不管怎样,Sora所展现出来的那种“革命性”,毫无疑问地给绝大多数行业提供了降低成本、提高效率的潜在可行性,更是为那些远离视频行业的普通大众开启了一扇能够创造虚拟世界的门。
跨越现实与虚拟的界限,从二维、三维穿越至多维的奇妙地带,眨眼之间,这件事真的就要临近了吗?
来源:新智元、语音之家、中国记协等
欢迎 你 发表评论: