首页 每日干货分享 当AI谱写99%的音乐:四位产业一线者共议音乐未来与商业变革

当AI谱写99%的音乐:四位产业一线者共议音乐未来与商业变革

发布时间: 浏览量:2 0

欢迎收听现场对话原文

倘若某一刻,世间百分之九十九的乐曲并非由人创作而成,你还会针对一首歌曲持续单曲循环播放吗?

设短剧运用了 AI 配乐,电影采用了 AI 配音,健身房、瑜伽馆以及直播间后面的全部 BGM 都是依靠算法实时生成,那么音乐这门极为感性的生意情形,会被改造成何种模样呢?

在2025年北京非凡大赏举办的一场圆桌会议期间,我们将如此这般的问题,抛给了处于一线位置的四位人士:

有着多年行业深度观察经历的范志辉,是音乐先声以及文娱先声的创始人担当主持人;。

身为从事全球AI配音业务的宋开发,也就是VMEG联合创始人兼COO,每日都在与海外电视台一同,致力于打磨那种具备人格特质的声音,。

音乐总监程昭瑜,来自某地,正思考一件事情:若将文本,视频,语音以及音乐,全都交付给同一个模型,那么会催生出怎样全新的创作方式呢 ?

身为增长营销负责人的郭瑞,为音乐人以及开发者供给音乐模型和 API,于第一线体会到商业化及成本曲线上切实存在的压力,。

身为音乐人,同时还是AI创业者的杨樾(43AI科技集团联合创始人 & CEO ),提出过一个判断,这个判断颇具争议,其内容是:人类应该听到的音乐,其中99%,实际上还没有被制作出来 。

这篇章稿子并非单纯的逐字去整理,而是将那一时刻所存在的观点,以及分歧,还有顿悟,重新进行串连起来,要是AI开始着手写歌,那么音乐产业的游戏规则,究竟还有多少会是原来的那般模样呢?

一. 从播音腔到人味儿:配音行业正在被重写

先上来的是最落地的业务,AI配音。

宋开发讲,他们所从事服务的VMEG这家公司专门针对全球范围各式各样影视、动漫、广告、纪录片等内容进行配音工作,现在已然拥有超过百万数量用户,这些用户广泛分布于海外电视台、电影公司 。

在全球用户的反馈里,出现频率最高的两个词是:

(自然)和Real(真实)。

传统的人工智能配音,特别是许多大型企业推出的模型,其语音表现通常类似播音主持,具备标准、清晰、毫无瑕疵的特点,然而却缺乏惊喜感。大部分呈现的仅仅是成年男性与成年女性的嗓音,情感表达较为平淡,毫无起伏。

真实世界所需之声,远比那个复杂许多,孩子之声、老人之声、方言、口音尤为复杂,藏族老奶奶那种格外细微短促的音色,更是稀缺资源。

VMEG正在着手开展的相关事宜,经一句话予以概括呈现实则为,于170多种不同语言范畴之内,去完成对声音长尾部分予以补齐的相应动作。

不只是能说,还要能说长。

许多AI配音相关产品,朗读几十秒的广告尚可做到,然而一旦涉及长视频,便会暴露出如下问题:声音于前后阶段的音色存在差异,情绪出现陡然变调的情况,人物人格出现崩坏情景。

针对宋所开发的那些客户而言,其中大部分是拿着时长为两小时的电影前来进行测试的,这部电影当中存在着歌曲,蕴含着情绪爆点,并且有着大量的对话,稍微不留意就会出现穿帮的情况。

所以他们把壁垒压在两个字上:音色和情感。

当你能够使得一个虚拟的声音,持续几个小时保持稳定的人格,并且还能够在哭、笑、愤怒、沉默这些状态之中自然地过渡时,配音就不再仅仅是听得懂,而是能够听得进去了。

使你去做这样的想象:针对未来的情况而言,存在一部呈现在眼前的印度电影,它能够借助北印度语,通过南印度语,运用多国语言进行自动配音 。

歌曲部分可以选择翻唱还是保留原声;

所有这些都嵌在制片工作流里,导演只管看结果。

你便会明白,为何宋开发着重指出,切实的壁垒,并非在于能言善辩,而是在于深谙电影 。

二. 当音乐失去稀缺性,版权逻辑会崩盘吗?

倘若讲配音是去修补原本产业链里的效率漏洞,那么所做的事儿呢,更近似于重新打造一套逻辑。

杨樾的观点很直接:

在过去的这一年半时间里,大家对于AI音乐的看法,先是从认为它是高效工具,转变为觉得它是专业助手,而到了如今,领先模型已然能够超越绝大多数职业音乐人 。

他预留了一个余地,声称存在1%未予超越,表示是为人类留存些许尊严,然而话语之中蕴含的意思并非难以领会:

AI在创作层面,不再是玩具,而是真正的生产力。

问题来了:传统音乐产业的价值基础是什么?

很简单:稀缺性。

写歌要时间,要经验,要灵感,还要机会成本。

所以一首爆款单曲的版权,能源源不断给创作者带来收益。

但AI让这一切碎掉了。

在模型能够于短时间之中大量产出具备高质量的音乐的状况下,创作一首歌这样的事情便不再属于稀缺范畴,进而版权自然而然也就难以抬高价格了。

你一年写十首歌,其中一首火了,版权养你十年;

一天之中,AI可以帮你生成一百首歌曲,在此其中,每一首都有着不差的水准,然而却都不存在那种让人觉得非它不可的足够充分的缘由。

于是,杨樾提出了一个全新的概念,这个概念是MaaS,也就是Music as a ,其意思是音乐即服务 。

于这一套逻辑当中,音乐并非再被视作一首首作品去售卖,而是转化成为与场景相捆绑的服务能力 , 。

给瑜伽馆的是一整套符合呼吸节奏和肌肉放松节奏的音乐;

给运动场景的是根据心率和成绩反馈动态调节节奏的音乐;

给睡眠和冥想的是能降低紧张感、帮助入睡的声音处方;

给学习和专注的是维持节奏但不过度抢注意力的背景声。

音乐不再是听什么就算什么,而是你需要什么,我就生成什么。

更有意思的是,他们甚至不做严厉的防盗策略。

原因很现实:

做一首歌只要十五秒,

偷一首歌还得花四分钟去转录、导入、清洗。

在一个生产成本接近于零的时代,防盗本身变得不经济。

那首歌,不再属于真正值钱的范畴,真正值钱的是,你能不能持续地,针对某个场景,给出有实际用途的声音解决办法。

三. 多模态厂牌:为什么还要费力去做音乐?

设你身为一家大模型公司,已然在文本方面展开激烈竞争,也于图像领域奋力拼搏,亦为视频方向全力以赴,那么为何还要涉足音乐这个看起来显得小众且难以进行评估的方向呢?

AI音乐创作_ai生成原创音乐_AI配音

给出的答案,是多模态之间的共振。

程昭瑜提及,于一个多模态的架构当中,文本,语音,视频,音乐,并非是四条呈平行状态的线,而是在许多的地方能够实现共用底层经验以及训练框架的 。

更重要的是,当模型能力越来越强,边界正在变模糊。

你很难再将这是专门用于做音乐的模型,与这是做视频的模型截然分开,由于一段影视内容,其自身就一并涵盖画面、对白、音效、配乐。

从产品层面来看,他们现在在做一键式创作:

有一个灵感,就能生成一首完整的歌,或者有一段文字也能生成完整的歌曲,又或者有一个简单的提示同样能生成完整的歌。

对于绝大部分听众来讲,一首由AI生成的流行歌曲,与人类制作出来的,已然很难凭借耳朵去加以区分。

真正难的,不是音色像不像,而是两个词:美感和独创性。

美感能够借助众多数据来学习,直白一点儿讲就是,不要太过难听,不要过于突兀,不要偏离基本的音乐审美 。

但独创性就麻烦了。

在理论上,只要你写出的旋律没有在世界上出现过,那就是原创。

然而现实世界里,我们都知道:为什么那么多歌听起来差不多?

因为它们只是在配方上换了几味香料,本质还是预制菜。

在做的,是用评测体系去回答两个问题:

一首歌是否符合通用美学,至少不要让人听着难受;

与此同时,是不是又能够给予创作者一种,这东西就是属于我的这样的感觉呢,而并非是由一堆套路拼凑而成的声音模板呀。

当多模态的能力叠加起来,音乐就不再只是配上去的BGM。

它可以和画面、文本一起被设计,成为整个内容体验的一部分。

四. 从模型迭代到降价 40%:B 端生意的现实拐点

会聊技术的时候容易兴奋起来,然而,所有的兴奋之情,在最终时刻,都需要回归到这么一句话上,那便是:赚取钱财困难与否?

他们给出的回应极度踏实,切实可行。他们一方面正致力于投身面向创作者的音乐产品打造工作,此外,另一方面他们还在为开发者供应API以及模型系列服务 。

郭瑞透露,即将更新的 O 系列模型,会变得更细腻,他还透露,即将更新的 V 系列模型,同样整体会变得更细腻:

不但能够领会爵士风、摇滚风这般大体上的风格,还可以察觉到慵懒的午后那种略微心碎却又不至于崩溃的这类细致的情绪。

于B端之处,模型会展现出更为稳定之态势,更为高速之状态,更为易于控制之情形。紧接着存在一句特别关键之话语:新一代模型,将会实现整体降低价格百分之四十之情况。

为什么?

因为他们发现,接入音乐模型的B端公司越来越多:

做AI视频的,做传统视频广告的,做游戏的,做虚拟偶像的……

这些客户的诉求和独立音乐人完全不同,他们更看重:

能不能稳定输出?

延迟够不够低?

价格结构能不能支撑整个生态赚钱?

若是模型厂商将自身置于生态链的最上游位置,然而却把价格限定得僵直死板,由此致使下面一圈从事应用的人没有盈利空间,那么这个生态很快就会走向衰败枯萎。

所以降价不是做慈善,而是一个冷静的判断:

当技术跨过某个门槛,合理让利,反而会放大整个市场。

五. 声音的记忆:配音不是替代,而是放大情感

回到声音本身,它不只是信息载体,更是情感记忆。

近日,一部名为《疯狂动物城2》的影片,于国内由于配音方面的相关问题,引发了颇为热烈的讨论:那些观看影片的观众,并非是对明星存在厌恶之情,而是内心深处不愿舍弃自己脑海中对于经典角色声音所留存的深刻记忆。

宋开发于海外从事配音工作之际,察觉到了更为精细的需求,有音乐人期望运用自身的嗓音去演唱全然陌生的语言,诸如希伯来语、立陶宛语等,有明星以及 IP 方渴望凭借自身的原声特质,讲遍全球的各种语言,有学生盼望听到熟悉的老师讲授各国语言课程,即便这些音频是由 AI 生成的,其学习体验也会更为亲切。

这些需求都指向一个事实:声音是记忆的索引。

当你听到一个熟悉的声线,大脑会自动唤起和它绑定的情绪。

这也是为什么,不同地区对AI配音的容忍度差异巨大。

在部分拉美国家当中,观众对于剧集的AI配音版本,其接受程度是很高的 ;可是呢,在北美地区那里,许多的用户一旦听出来里边的语音好像并非源自真人,便会马上放弃观看这部剧集 。

VMEG致力于攻克一些能力,这些能力看似细节,却对体验极为重要,目的是防止AI声音穿帮,其中包括,让AI具有哭的能力,哭时声音要有颤抖与破音,也就是AI哭腔;让多人同时说话具备立体感和空间感,即异口同声;在未来会议同传场景下,台上领导讲中文,每一个台下的人均能聆听领导本人声音的不同语言版本,如英文、日文、西班牙语。

在这之中存在着关于技术方面的挑战,然而其本质依旧是那一番话语,即人工智能并非是要来将人予以消灭的,反而是要把人的情感朝着更为广阔的世界里予以扩大的 。

六. 创作工具变了,但音乐家这件事没变

那普通的音乐从业者应该焦虑吗?

杨樾给出了一个回答,这个回答并非那种充满鸡汤意味的,他指出关于有这么一句话,即说有了AI人人都能成为音乐家,这是很扯的 。

音乐从来都是极少数人的事业。

仅仅只是,以往面临的门槛,在于技巧,在于乐理,亦在于器乐还有制作能力,然而现如今它的门槛,在于另一件事情的不同情况。

你是不是一个愿意持续学习、不断升级玩法的人。

AI的出现,只是在拉高整个行业的平均分:

原来只能做80分作品的人,现在有机会借助工具做出95分;

原来能做到100分的人,有机会做到120分。

这个过程带来的一个结果是:垃圾音乐会被大量淘汰。

但这并不意味着所有人都没机会了。

相反,它让真正有表达欲、有独特视角的人,更有机会突破。

程昭瑜讲,往后的个人创作者,极有可能全是超级个体,一个人既是撰写文案的、导演,还是创作配乐的以及制片人 。

AI配音_ai生成原创音乐_AI音乐创作

不是AI在替你写歌,而是AI在帮你,把你脑子里一闪而过的东西,以最低的摩擦,变成完整的作品。

只要你有东西可说,有情绪可分享,就永远有机会。

七. 增长的底层逻辑:先回到人,再谈增长黑客

聊到商业化,话题自然绕不开增长。

不但的观点为,要是增长仅仅只是一味地盯着数据以及黑客技巧,并且还脱离了创作者以及用户自身,那么最终必定是会走向偏差的。

从他们所具备的视角来看,存在着两群占据主流位置的用户,其中一群是创作者以及音乐人,而他们内心真正所需要的东西被称作表达,。

他们并非必然在意这首歌能否登上榜单,更为关注的是,是否存在一个足够便于操作的工具,能够协助他们将脑海之中的画面转化为能够被听见的事物。

存在着另一群人,这一群人是B端客户以及开发者,他们所具有的需求并非是浪漫,而是可控以及稳定。

能不能通过API稳定调用?

能不能保证每次输出质量稳定?

能不能根据业务场景做细致调参?

这里有一个被反复提到的关键词: ,领域专业性。

AI不会自动明白,需要的是什么,对于一个瑜伽老师而言,对于一个健身教练来说,对于一家广告公司来讲 。

得有那么一批人,他们要同时懂得音乐相关知识,懂得产品方面内容,懂得行业场景情况,然后将技术转化成业务语言 。

增长并非是拉新、转化以及留存这几个公式,而是在于你究竟可不可以持续地为这一群人去解决实际存在的问题。

八. 给想做AI音频的创业者:壁垒、不复制和放下自己

谈到最终的时候,范志辉提出了一个全体人都在思索的问题:要是当下打算步入AI音频赛道这种情况,你们之中每个人给出一句话作为建议的情况下,会说出什么样的内容呢?

四位嘉宾给出了四种视角。

宋开发的建议是:先把场景吃透,再考虑壁垒。

AI声音所处的市场规模极为庞大,在诸如俄罗斯这般连基础翻译工具都尚未完备的地区,于短剧领域,在电影范畴,在教育方面,各个地方均存在着空白之处,句号。

可是,要是你仅仅去做一个大家都能够做出来的通用模型,那么,迟早会陷入那种同质化的竞争之中。

他们选择的是千人千面的智能体路线:

配音时,针对某一个年龄层次,对于某一种口音,面对某一种性格的人,能够做到高精度匹配 。

你对某个场景理解得越深,用户就越难离开你。

程昭瑜的建议是:走一条无法复制的路。

不要和大厂比制作水准,那里永远有更专业的团队。

你要比的,是源源不断地呈现出你自己的内核。

他举了一个有趣的例子:

B站存在个UP主,此人被称作二创抖音雨姐,其本质乃是将东北日常的生活碎片,搭配上具有魔性的旋律 。

这样是否彰显出专业性呢?倘若自学院派特有的观点出发进行评断,或许并非如此,然而,那种融入了些许并非娴熟的生活层次的感觉,却是其他任何人都难以效法的。

对于个人创业者而言,需要来回穿梭于视频、文本以及音乐当中,通过这些搭建起属于自己的、独一无二的表达风格,。

而不是幻想靠一首AI神曲一夜爆红。

属于郭瑞提出来的建议,是将自我设身处地放置于工具方的那个位置之上,创作者真心实意所渴望的乃是能够得到世界全面的看见,。

那你就去找出他们每一步遇到的阻碍,一点点帮他们拆掉。

而杨樾则给了两类人截然不同的建议:

对那些正准备去使用AI的音乐人而言,他给出建议,要务必学会放下自身拥有的那一点儿已然存在的旋律。

别老是在那儿为了让AI把你哼出的那短短的一小截给修整得无可挑剔而费尽心思苦苦思量,还不如尝试着果断摒弃那种掌控的念头,把生成的权利交予AI,。

你可能会看到比你脑子里那点东西更广阔的世界。

对坚决拒绝AI的传统音乐人,他反而说:那就请你坚持到底。

未来,充满着人机共同创造的情形的,由纯粹碳基人类创作出来的音乐,将会变成极其稀少罕见的奢侈品。

如果你能证明一张专辑完全没有AI参与,反而可以卖得更贵。

拥抱AI的人,有机会;

拒绝AI但坚持极致的人,也有机会。

真正危险的,是既不拥抱,也不坚持,只是被动观望的人。

尾声:人类的不完美,可能是最后的版权

那天对谈的最后,范志辉说了一句很像总结,又像提醒的话:

这个时代并不要求所有人都拥抱AI。

它所真正要求的是,不管你选择哪一条道路,都得将那条路走到足够的极致状态。

借助于AI音乐以及音频技术,将会持续向前推进,具体表现为,其一,发出的声音会愈发逼真,其二,所蕴含的情感会愈发细腻,其三,生成的速度会愈发快速,其四,产品的价格会愈发低廉。

但有些东西,它大概永远也替代不了。

一段不完美的嗓音里混杂的呼吸,

一个创作者写歌时因为犹豫而多按的一次删除键,

一场演出里因为紧张而跑掉的几个音。

人类的创作,可能会从主角变成和AI共同演出的一半;

但正是这种不完美、不稳定、不可预测,

构成了我们最后的稀缺性。

AI帮我们把声音送得更远,把音乐做得更多;

再者,我们所需去实施的行为,乃是进行明晰的思考,即:于当前这个充斥着无限复制现象的时代范畴以内而言,则我们内心确切所欲预留赠予世界的内容,究竟是属于哪一种特定的声音呢。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~