Spark-TTS:基于大语言模型的开源语音合成工具,为开发者提供自然流畅的文本转语音解决方案
从智能音箱的语音交互开始,到有声读物的情感朗读,再到影视配音的专业需求,一个自然流畅的免费语音合成工具,它高度可控,正成为开发者和内容创作者的刚需。
就在今儿,要向大伙介绍一个开源的,名为Spark - TTS的AI语音克隆项目 。
Spark-TTS 是什么?
Spark-TTS属于开源项目,是由香港科技大学、上海交通大学、西北工业大学以及网易伏羲人工智能实验室等多家顶尖机构共同打造的。简单来讲,它具备将文字“念”出的功能,也就是我们平常所说的文本转语音 。
它不同于普通的语音合成工具,它是以大语言模型充当“大脑”,这好比给语音合成技术安装了更为聪慧的核心。
这表明它不但合成速率高,而且运用之时独具灵活性。无论是开展有声读物制作、智能客服构建,还是为视频进行配音工作,开发者借助它皆可顺利达成,是一款极为实用的语音合成神器!
它具备完全开源的特性,其代码被托管于特定之处,当前在Face趋势榜之中,于TTS领域的排名是第二,并且星标数呈现出持续攀升的状况。
核心功能是,重新去定义语音合成,零样本语音克隆,能够在3秒的时间内把任意的声音进行复刻。
传统语音克隆,要大量目标说话者的录音数据,然而 Spark-TTS 呢,只需 3 秒参考音频,便能够精准复现说话者的音色。并且能复现其语调,甚至还能复现情感特点!

不管是依照周杰伦的唱腔,来朗读文章,还是去复刻家人的声音,进而进行语音交互,它都能够达成惟妙惟肖的效果。
更令人称奇的是,它具备跨语言克隆能力。比如说,能够凭借中文音频克隆出英语语音,或者在中文与英文混合的场景里实现无缝切换,而且不需要针对每一种语言去单独训练模型。
Qwen2.5 大模型:语音生成的 “大脑”
将 Qwen2.5 大型语言模型予以整合,直接从文本输入着手生成语音编码,且无需额外的声学模型。Qwen2.5 不但理解文本语义,还能够依据语境自动去调整语音的语气、停顿以及强调,进而使生成的语音更契合真实表达。
快速上手:体验 AI 语音魔法
快速运行
# 克隆项目
使用git工具,去克隆,来自https://github.com/SparkAudio/RedisInsight-jupyter.git的链接所对应的项目 。
cd Spark-TTS
# 创建虚拟环境并安装依赖
使用conda,创建,一个名为sparktts的环境,其中python版本为3.12 。
conda activate sparktts
通过pip应用安装操作,针对需求文件requirements.txt进行依赖项安装 。
# 下载预训练模型(约3.7GB)
git lfs install
在命令行中,执行这样的操作,即使用git工具,连接到指定的网址,也就是https://huggingface.co/SparkAudio/Spark-TTS-0.5B ,将其内容克隆到pretrained_models/Spark-TTS-0.5B这个路径下,这一过程是为了获取相关的数据或模型等资源。 ,。
Web UI 可视化操作
# 启动Web界面
python webui.py --device 0
打开浏览器访问
通过“http://localhost:7860”,能够在线上传提供作参考的音频,对相关参数进行针对性调整,进而生成语音。其具备支持实时录制,以及多文件批量处理等一系列功能。
立即体验

欢迎 你 发表评论: