IndexTTS-2实现10秒声音复制与实时情绪转换,配音行业面临免费开源技术冲击
复制黏贴,10秒声音,再输入一句“他现在在偷偷难过”,这段声音就能立刻带有鼻音,微微颤抖,真可谓是神奇至极了!
前几天我盯着demo循环听了十几遍,心里只有两个字:离谱。
原来配音演员担心的不是被替代,是已经被免费开源了。
先看它到底干了什么。
往昔的TTS仿若那有着固定轨道的地铁,不管说什么都是同一种“播音腔”,将轨道拆除,转而使用汽车导航 。
方向盘是情绪,发动机是音色,目的地是文本——想拐弯就拐弯,想快就快,不用重录,打方向盘一句话就行。
音节级时长控制
做播客的人最懂:一句话差0.3秒,BGM就对不上。
系统能够如同数豆子那般,针对一个音节赋予多少帧进行固定设定,进而自动达成画面嘴型的对齐,。
自由模式

想模仿“微信语音一条55秒”的那种懒散节奏?
开自由模式,它自己边想边说,不卡秒。
情绪怎么调?
官方给了7个“情绪坐标”,从“开心”到“压抑”。
实际上,它更类似于RGB调色盘呀,输入的内容是“有点气,像在电梯里被人踩了一脚”,LLM将这句人们日常所说的话语翻译成向量,然后再把这个向量填塞进模型当中,最终出来的结果便是“忍着没发火的嫌弃” 。
不做丝毫改动的音色,等同于同一个人,既能展现那种充满愉悦、洋溢着欢快之情的“开心笑”,又能够流露饱含不屑、带着冷漠意味的“冷笑” 。
10秒冷启动
在剪映之中,随意剪出一段属于自己的声音,把它丢给剪映,如此便完成了,方言以及吞音它都能够进行复刻 。
日后进行短视频创作,连口播都无需再拍摄,打字即可——我尝试着将长沙塑料普通话输入进去,最终合成出来的依旧是长沙味儿,就连“咯”“哒”这类语气词都没有缺失。
影视公司的表现极为实际,将原本漫长的两天补录对白时间大幅缩减至仅仅两小时,成功节省了数额颇为可观的配音棚租金,可见其反应相当现实。
群里有个独立动画导演在炫耀,预算少得只有泡面钱,居然还能请到有梁朝伟音色的人 。
但我也得泼盆冷水。

有听过它演唱《孤勇者》的测试版,在副歌部分“战吗”之时,那一刹那,显著地没将音调顶着上去,仿佛是感冒才刚刚好就强求着去硬喊一般。
零样本音色克隆,于长段落时,依旧会出现轻微失真的情况,这情形恰似手机降噪开启过度那般 。
要知道那如同高悬头顶堪称隐患之虞宛如达摩克利斯之剑般的版权问题,更别提了,一旦声音模型被开源,那么“二创恶搞”仅仅只要10秒的原音即可达成。
以后谁还敢随便发语音?
最扎心的是,做有声书的配音演员已经准备改行写后期脚本了。
“不管怎样,AI朗读效果佳,我为其撰写提示词,速度比我亲自朗读还要快”,他于朋友圈自我调侃,所配图片乃是一张离职申请表,。
项目的官网、论文,都全部公开了,我快速看了一下issue区,在凌晨三点的时候,还有人询问“可不可以把四川话情绪模型训练集也放置进去” 。
看来不是技术能不能的问题,而是人们想把它用得多野。
你最近要剪片、做绘本、还是只是好奇自己声音哭起来什么样?
最先去录制时长为10秒的自身发出的“嗯哼”声音,接着把提示词撰写得如同发布朋友圈进行吐槽那般,也许就能够将“呈现出AI形象的我”哄弄到带着哭腔 。

欢迎 你 发表评论: