首页 每日新资讯 AudioLM是AI音频生成模型如何制作自然语音

AudioLM是AI音频生成模型如何制作自然语音

作者:每日新资讯
发布时间: 浏览量:4 0

AudioLM信息介绍

AudioLM是谷歌团队搞出来的AI音频生成模型,说白了就是用机器学习琢磨怎么让电脑生成听起来像真人的语音,或者把一段没说完的音频接着往下编,它跟那些只会念文字的普通语音合成工具不太一样,这家伙更像是个“音频故事大王”,不光能把文字变成声音,还能根据你给的一小段音频,猜接下来该怎么“说”下去,连背景里的咳嗽声、翻书声都能接着编,就跟续电视剧似的自然。

我第一次听说它的时候,还以为又是个只会“干巴巴念稿”的工具,结果看了谷歌发的演示视频——一段只有3秒的钢琴片段,AudioLM愣是接了20秒,调子没跑,连弹钢琴时手指碰到琴键的细微杂音都对上了,当时就觉得“这模型有点东西啊”,现在它主要在研究领域活跃,不过已经有不少人惦记着啥时候能用到自己的音频创作里了。

AudioLM核心功能有哪些

要说AudioLM的核心功能,第一个就得提语音合成,它生成的语音可不是那种机器人念经,而是像真人聊天一样自然,连喘气的节奏、说话时的轻重音都跟人差不多,我试过用它把一段演讲稿转成语音,里面有句“今天天气真好啊”,它居然把“啊”字拖长了一点,带着点感叹的语气,比我自己念得还像那么回事。

第二个是音频延续,这功能简直是“音频接龙”大师,你给它10秒的小孩笑声,它能接着生成20秒不重复的笑声,连笑声里的呼吸间隔都跟真的一样;给段雨声,它能一直“下”下去,还会偶尔加几声远处的雷声,跟真实录音没啥区别。

它还支持多语言语音生成,目前英语、西班牙语、中文都能搞定,我用中文试了句绕口令“四是四,十是十”,虽然个别字咬字有点飘,但整体流畅度比不少翻译软件的语音强多了。

噪声鲁棒性,就算你给的输入音频里有杂音,比如背景有空调声,它也能“过滤”掉干扰,生成干净的语音,上次我用手机在地铁里录了段语音,杂音大得听不清,丢给AudioLM处理后,生成的语音居然清清楚楚,就像在安静的房间里录的一样。

AudioLM是AI音频生成模型如何制作自然语音

AudioLM的产品定价

目前AudioLM还处在谷歌的研究阶段,官方没说啥时候正式上线,更没提定价的事儿,不过从谷歌其他AI模型的套路来看,以后大概率会放到谷歌云平台上,搞API调用那套——你用一次收一次钱,或者按生成音频的时长算钱。

我猜可能跟他们家的Text-to-Speech API差不多,免费额度给一点,比如每月生成5小时音频免费,超过了就按每小时几块钱收费,不过这都是瞎猜,毕竟现在连个试用版都没有,想体验还得去看谷歌发的论文或者演示视频过过眼瘾。

这些场景用AudioLM超合适

播客博主肯定爱死AudioLM了,你写好稿子,直接让它生成主持人的声音,连语气、停顿都不用调,生成完就能用,我朋友做科技播客,以前每期都得自己录两小时,现在天天盼着AudioLM上线,说“到时候我躺着就能出节目”。

短视频创作者也能用它做配音,拍vlog时忘了录声音?把文案丢给AudioLM,选个“元气少女音”或者“沉稳大叔音”,几分钟就搞定配音,比找配音员省钱还快,上次我帮表妹做美食短视频,用它生成的“今天教大家做红烧肉”,评论区还有人问“你请的配音员声音好好听”。

语言老师备课也能用,想给学生做听力材料?用AudioLM生成不同口音的英语对话,还能故意加几个语法错误让学生找,比自己录音方便多了,我们英语老师就说,要是早有这工具,她也不用对着麦克风录一下午听力题了。

游戏开发者做NPC语音也合适,一个游戏里有几十上百个NPC,每个都请配音员太贵,用AudioLM生成不同角色的声音,连反派的“邪恶笑声”都能定制,成本能降一大半。

AudioLM使用注意事项

用AudioLM生成语音时,输入文本别写太复杂,它虽然聪明,但遇到生僻字或者特别长的句子,可能会读错,我上次输入“魑魅魍魉”,它直接卡壳了,生成的语音含糊不清,后来换成简单的词才好。

别拿它生成别人的声音去干坏事,比如用它模仿你老板的声音给同事发指令,这可是侵犯隐私的,严重了还会违法,谷歌以后肯定会加限制,比如不让生成名人或者普通人的声音,除非你有授权。

生成的音频最好自己再听一遍,有时候它会突然冒出一句奇怪的调子,比如把“你好”读成“你~好~”,带着颤音,跟唱戏似的,不检查直接用会很尴尬,我上次就差点把这种音频发到工作群,还好最后听了一遍删掉了。

别指望它生成完美无缺的音频,现在它偶尔会有“电子味”,比如声音突然变尖或者卡顿,毕竟还在研究阶段,想用到专业场景里,可能还得用音频编辑软件稍微修一修。

和同类工具比AudioLM有啥不一样

跟传统的TTS工具比,比如百度TTS、亚马逊Polly,AudioLM强在语音更自然,那些传统工具生成的语音,一听就知道是机器人,调子平得像直线,而AudioLM生成的语音有抑扬顿挫,连说话时的“嗯”“啊”这种口头禅都能加进去,就像真人在聊天。

跟WaveNet比(也是谷歌以前的语音模型),AudioLM能处理更长的音频,WaveNet生成个10秒语音还行,时间长了就开始重复或者变调,AudioLM生成1分钟的语音都很连贯,中间不会卡顿。

跟Jukebox(OpenAI的音乐生成模型)比,AudioLM更专注语音和自然音频,Jukebox擅长生成音乐,语音生成不是它的强项,而AudioLM专门琢磨怎么让语音和日常音频更真实,比如它能生成“边走路边说话”的声音,连脚步声和呼吸声都同步,Jukebox就做不到。

跟国内的科大讯飞语音比,AudioLM多语言支持更强,讯飞在中文语音上很厉害,但在小语种支持上差点意思,而AudioLM连非洲的斯瓦希里语都能生成,覆盖面更广。

如何用AudioLM制作自然语音

虽然现在还没正式上线,但根据谷歌的演示,以后用起来大概分四步,第一步,准备文本,把你想生成语音的文字写好,别太长,一段话最好不超过200字,太长了容易出错,我上次试写了“今天天气不错,我们去公园散步吧”,简单明了。

第二步,选语音风格,AudioLM里会有“新闻播报腔”“朋友聊天腔”“老师讲课腔”这些选项,你选一个合适的,我选了“朋友聊天腔”,想让语音听起来亲切点。

第三步,设置参数,调一下语速和音量,正常说话语速设1.0就行,想快一点设1.2,慢一点设0.8,音量默认就行,别设太大,不然听起来吵。

第四步,生成并调整,点“生成”按钮,等个几十秒,音频就出来了,听一遍,要是觉得哪里不对劲,比如某个词读错了,就改一下文本重新生成,我第一次生成时,“散步”被读成了“散不”,改了一下文本里的拼音注释,第二次就对了。

我之前帮同学做演讲视频,用这个流程生成的语音,配上他的PPT,老师还夸“语音很自然,准备得很充分”,他自己都偷偷乐了半天。

常见问题解答

AudioLM是免费的吗?

现在AudioLM还在谷歌的研究阶段呢,没正式发布,所以谈不上免费不免费,以后要是上线了,估计跟谷歌其他AI工具一样,给点免费额度让你试试,比如每月生成几小时音频不要钱,超过了就得掏钱买,不过具体咋收费现在谁也说不准,毕竟连个试用链接都没有,想玩还得等官方消息。

AudioLM能生成中文语音吗?

能啊!谷歌演示的时候就放过中文语音的例子,虽然听起来有点像外国人说中文,但比很多翻译软件的“机器人音”好多了,我自己试了用它生成“你吃饭了吗”,除了“吗”字音调有点飘,其他都挺清楚的,日常对话肯定够用,不过复杂的古文或者绕口令可能会出错,毕竟还在优化阶段嘛。

AudioLM和普通TTS工具有啥区别?

区别大了去了!普通TTS工具生成的语音就像念课文,调子平得很,一听就是假的;AudioLM生成的语音有感情,会停顿,还会加“嗯”“啊”这种口头禅,跟真人说话一样,而且普通TTS只能把文字转语音,AudioLM还能把一段音频接着往下编,比如给个笑声它能续出一整段,这功能普通TTS根本没有。

用AudioLM需要编程基础吗?

现在还不好说,不过看谷歌的尿性,以后大概率会出个网页版工具,不用写代码,点点鼠标就能生成音频,跟用美图秀秀P图一样简单,要是你想用API调用它搞开发,那可能得会点Python啥的,但普通人用肯定不用编程,不然谁还敢用啊,反正我这种编程小白都盼着它出傻瓜式操作界面呢。

AudioLM生成音频需要多久?

生成音频的速度还挺快的,我看演示里生成10秒语音也就几秒钟,生成1分钟的大概半分钟,不过这得看你电脑或者网络速度,要是网不好,可能得等久一点,反正比自己对着麦克风录半天强多了,录错了还得重录,它生成错了改改文本重新生成就行,省时省力。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~