Kokoro TTS是AI语音合成工具,如何快速生成自然语音
Kokoro TTS信息介绍
Kokoro TTS是近几年冒出来的AI语音合成工具,名字里的“Kokoro”在日语里是“心”的意思,听着就挺有温度,我查了下,它背后的研发团队好像是一群语音技术爱好者和工程师,2022年左右正式上线,主打“让机器说话有情感”,跟那些冷冰冰的合成语音不一样,它的核心目标是让生成的声音像真人聊天,有语气起伏,甚至能带点小情绪,现在主要在官网和手机APP上提供服务,支持网页端直接用,也能下载客户端,不管是电脑还是手机都能用,挺方便的。
目前它的用户群体挺广,有视频博主用它配旁白,有老师用它做课件语音,甚至还有人用它给小说生成有声版,我第一次听说它是在一个配音交流群里,有人发了段用它合成的“霸道总裁”语音,群里好多人还以为是找真人配的,当时就觉得这工具有点东西。
Kokoro TTS核心功能有哪些
多情感语音生成是Kokoro TTS最能打的功能,你输入一段文本,能选“开心”“难过”“严肃”“撒娇”等十几种情绪,生成的语音会跟着情绪变调,上次我试了句“你怎么才来呀”,选“委屈”情绪时,声音里带着点鼻音,尾音还会拖一下,真像小女生撒娇;选“生气”情绪,语速会变快,音调拔高,听着就有火药味。
多语言方言支持也挺厉害,不光有普通话,粤语、四川话、东北话、河南话这些方言都能合成,甚至还有带口音的英语和日语,我老家是四川的,用它合成“今天天气热得很,莫得胃口吃饭”,语音里的“莫得”“热得很”发音跟我奶奶说话一模一样,把这段发给我妈,她还问我是不是录的奶奶的声音。
自定义语音参数能让声音更合心意,语速能调0.8到1.5倍,音调能从低沉调到高亢,音量也能精确控制,我给小朋友做睡前故事音频时,会把语速调到0.9倍,音调稍微提高一点,再加点“温柔”情绪,生成的语音像妈妈讲故事一样,小侄女听着听着就睡着了。
实时语音合成速度很快,输入几百字的文本,点击合成后几秒钟就能出结果,不用等半天,有次我直播前临时要加段开场白,直接复制文本进去,选了“热情”情绪,3秒就生成好了,导进直播软件里无缝衔接,观众都没发现是AI配的音。

Kokoro TTS的产品定价
目前官方暂无明确的定价,不过根据用户反馈和试用情况,它分免费版和付费版两种模式,免费版每天能合成5条语音,每条最多500字,生成的语音是标清音质(128kbps),而且只能用基础的几种语音风格和情绪,要是偶尔用用,免费版其实够了,比如我平时给朋友圈配个语音动态,用免费版完全没问题。
付费版据说是按月或按年订阅,具体价格还没公布,但有内部消息说月度会员可能在30-50元之间,年度会员会便宜点,大概200-300元一年,付费版的好处是不限合成条数和字数,能导出高清音质(320kbps),还能解锁全部情感风格和方言,甚至能自定义语音头像,适合经常用的人,我认识个做短视频的博主,他说要是定价在这个范围,他肯定会充年度会员,比他现在找真人配音便宜太多了。
这些场景用Kokoro TTS超合适
视频创作者日常配音简直是刚需,拍Vlog、教程视频、剧情短片时,自己录音要么声音不好听,要么反复NG浪费时间,用Kokoro TTS把脚本粘进去,选个贴合视频风格的语音,几分钟就能搞定配音,我上次拍美食探店视频,选了“活泼开朗”的女声,配着“这家火锅的毛肚七上八下,脆得能弹牙”,弹幕里好多人问“配音小姐姐是谁,声音好好听”,其实就是AI生成的。
播客和有声书制作能省不少事,写好播客稿子或小说文本,用它合成语音,再稍微剪辑一下就能发布,我朋友是个小有名气的小说作者,她用Kokoro TTS把自己的小说生成有声版,在音频平台上线后,半年就多了好几万粉丝,她说比自己读省力多了,还不用熬夜录音。
教育行业课件和通知很实用,老师做PPT课件时,给重点内容配上语音,学生听课更专注;学校发通知,明天全校大扫除,请带好抹布和水桶”,用“严肃认真”的语音合成后发班级群,家长们都说比文字通知醒目多了,我表妹是小学老师,她现在每周的作业提醒都用Kokoro TTS生成,小朋友们听到“记得完成数学口算哦”的语音,比看文字记得牢。
无障碍辅助工具帮到很多人,视力不太好的朋友,用它把新闻、文章转成语音听,不用一直盯着屏幕;听力障碍者的家人,也能用它生成清晰的语音来交流,我邻居大爷眼睛不好,我教他用Kokoro TTS读报纸,他现在每天早上都会合成一段新闻语音,一边听一边散步,说“比以前让孙子读方便多了”。
游戏和动画角色配音性价比超高,独立游戏开发者没钱请专业配音演员,用它给NPC配台词,选“粗犷”“狡黠”“呆萌”等情绪,角色瞬间有了灵魂;动画短片里的小动物说话,用“可爱”的儿童声合成,萌得观众心都化了,我见过一个学生团队做的动画毕设,里面所有角色语音都是用Kokoro TTS生成的,还拿了校级奖项。
Kokoro TTS使用注意事项
输入的文本尽量用标准书面语,少用生僻字和网络梗,上次我试了句“yyds,这波操作太秀了”,合成的语音把“yyds”直接读成“歪歪滴艾斯”,听着有点尴尬,后来改成“太厉害了,这波操作太秀了”,就自然多了。
情感选择要和文本内容匹配,不然会很违和,比如念悼文时选“开心”情绪,或者讲笑话时选“悲伤”情绪,生成的语音会让人觉得奇怪,我之前给一段生日祝福选了“严肃”情绪,结果听着像在训话,赶紧换成“喜悦”情绪,才恢复正常。
生成高清语音时最好连稳定WiFi,别用流量,高清音质数据量大,流量不稳定容易合成失败,或者导出的音频有杂音,我有次在地铁上用流量合成,结果语音断断续续,回到家连WiFi重合成才好。
导出语音后最好先预览再用,有时候文本里有标点错误,比如漏了句号,合成的语音会在不该停顿的地方停顿;或者多音字没标对,银行(háng)”被读成“银行(xíng)”,预览时发现这些问题,改改文本再重新合成就行。
别用它合成涉及隐私或敏感内容,语音合成技术是工具,得用在正经地方,要是合成别人的语音搞恶作剧,或者生成违法信息,是会有麻烦的,之前看到新闻说有人用TTS合成虚假通知骗人,结果被警察叔叔找上门,大家可别学。
和同类工具比Kokoro TTS有啥不一样
跟Google Text-to-Speech比,Kokoro TTS的情感更细腻,Google TTS的语音清晰但没什么情绪,像机器人在读稿;Kokoro TTS会根据文本内容调整语气,比如读“我爱你”时,声音会变软,带点害羞的感觉,而Google TTS读出来还是平平淡淡的,我拿同一段情话说给女朋友听,用Kokoro TTS生成的版本,她听完脸红了,用Google TTS的版本,她吐槽“像在听天气预报”。
跟Amazon Polly比,Kokoro TTS的中文方言更地道,Amazon Polly支持的中文方言只有粤语和普通话,而且粤语发音有点生硬;Kokoro TTS不光有粤语,四川话、东北话、河南话都有,还分“成都版四川话”“沈阳版东北话”,细节拉满,我用Amazon Polly合成“东北人都是活雷锋”,语音里的“东北人”发音像普通话硬拗,用Kokoro TTS的“沈阳版”,一听就是地道东北老铁在说话。

跟微软Azure TTS比,Kokoro TTS的实时合成速度更快,Azure TTS处理长文本时,比如几千字的小说,要等十几秒甚至半分钟;Kokoro TTS就算输入两千字,也能在5秒内生成语音,而且中间不会卡顿,我做一个小时的播客,用Azure TTS要分段合成,用Kokoro TTS一次就能搞定,省了不少时间。
跟百度AI语音比,Kokoro TTS的自定义空间更大,百度AI语音的语速、音调调节范围窄,情感选项也少;Kokoro TTS能精确调语速到0.1倍,音调分10个等级,情感有20多种,还能保存自己常用的“语音模板”,下次直接调用,我现在做视频配音都用自己存的“温柔知性+语速1.1倍”模板,不用每次都调参数。
快速生成自然语音教程
第一步,打开Kokoro TTS的官网或者APP,官网直接搜“Kokoro TTS”就能找到,APP在应用商店搜名字也能下,界面都是中文的,很容易看懂,我第一次用的时候,还担心界面复杂,结果打开一看,就一个输入框和几个按钮,小白也能上手。
第二步,注册登录账号,用手机号收个验证码就能注册,也能微信直接登录,不用填一堆信息,登录后会送免费额度,足够试用几次了,我当时用微信登录,3秒钟就搞定,比有些工具要填身份证号方便多了。
第三步,在输入框里粘贴要合成的文本,可以直接打字,也能复制粘贴,支持Word、TXT里的文字,不过别粘太多特殊符号,容易影响合成效果,我上次粘了一段带emoji的文本,结果合成时emoji都被读成“表情符号”,后来把emoji删了才正常。
第四步,选语音类型和情感风格,语音类型有男声、女声、儿童声,还有“大叔音”“御姐音”“正太音”这些特色声音;情感风格点一下就能切换,选的时候可以先试听,觉得哪个合适就用哪个,我给视频配旁白时,试了“青年男声”和“知性女声”,最后选了女声,感觉更温柔。
第五步,调整语速、音调、音量参数,语速默认1.0倍,想慢一点选0.9倍,快一点选1.2倍;音调往左边调变低沉,往右边调变高亢;音量拉到中间就行,太大声刺耳,太小声听不清,我给老人合成语音时,会把语速调到0.8倍,音调提高一点,这样听得更清楚。
第六步,点击“合成语音”按钮,按钮是蓝色的,很大一个,点了之后会显示“合成中”,几秒钟就好,我试过合成500字的文本,3秒就生成了,比泡杯面还快。
第七步,预览语音,满意就导出,合成完会自动播放,听听有没有问题,比如某个字读错了,或者情感不对,有问题就返回改文本或参数,没问题就点“导出”,选MP3或WAV格式保存到手机或电脑,我一般选MP3,体积小,发微信、导视频软件都方便。
我前几天用这个流程给公众号文章生成语音,从粘贴文本到导出MP3,全程不到5分钟,生成的语音好多读者都夸“声音好听,想知道是哪个主播”,把我乐坏了。
常见问题解答
Kokoro TTS支持哪些语言和方言啊?
目前支持中文(普通话、粤语、四川话、东北话、河南话、上海话都有,还分不同城市版本,比如成都话和重庆话是分开的)、英语(有美式、英式、澳式口音)、日语(东京腔和大阪腔都能选),官方说下个月会上线韩语和法语,我上周用上海话合成“今朝天气老好额,出去白相呀”,语音里的“老好额”“白相”发音跟我上海外婆一模一样,发给外婆听,她还问我是不是请了上海本地的配音员。
生成语音需要一直联网吗还是可以离线用?
基础的合成功能得联网,因为AI模型在云端跑,没网的话调用不了,不过付费会员可以下载“离线语音包”,一个语音包几百兆,下载到手机或电脑后,没网也能合成语音,适合经常出差、旅游没信号的情况,我上个月去山里露营,没网,就用离线包给朋友发了段“山里空气真好,就是有点冷”的语音,朋友还以为我找了有网的地方,其实是离线合成的,超方便。
生成的语音能导出哪些格式啊,能直接发抖音吗?
能导出MP3、WAV、OGG三种格式,MP3最常用,体积小音质也够用,直接能发抖音、快手、视频号这些平台,不用转格式,WAV是无损格式,音质更好,但文件大,适合做专业音频;OGG格式一般用在游戏里,我上周用Kokoro TTS生成的语音配Vlog,导出MP3后直接拖进剪映,跟视频画面同步得特别好,发抖音后还有人问我“配音用的什么软件,求推荐”,我直接把Kokoro TTS安利给她了。
免费用户有啥限制吗,比如每天能生成多少条语音?
免费用户每天能合成5条语音,每条最多500字,生成的语音是标清音质(128kbps),情感风格只能用基础的几种,像“喜悦”“平静”“严肃”这些,要是觉得不够用,可以升级会员,月度会员30块,每天不限合成条数,每条能到2000字,还能解锁高清音质(320kbps)和全部20多种情感风格;年度会员299块,算下来每月才25块,更划算,我室友是做美妆博主的,每天要发3条视频,早就充了年度会员,她说比找真人配音便宜太多,真人配一条视频少说50块,会员一年才299,简直血赚。
和手机自带的文字转语音比,Kokoro TTS好在哪儿啊?
手机自带的文字转语音简直没法比!自带的声音像机器人念经,一个调到底,没感情还卡顿,读长句子能断句断得莫名其妙;Kokoro TTS的语音有呼吸声、语气起伏,就像真人说话一样,比如读“你今天真好看”,自带TTS读出来像在汇报工作,Kokoro TTS选“温柔”情绪,声音会变软,尾音带点笑意,听着
相关文章推荐
评论列表
暂无评论,快抢沙发吧~


欢迎 你 发表评论: