请先查看下方配置要求,确认电脑能使用再下载,如果不知道什么是网盘、什么是压缩包以及什么是电脑配置,请勿下载
B站正式发布基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型——IndexTTS。该模型在中文处理方面具有拼音纠正汉字发音的能力,并可通过标点符号精准控制停顿,使语音更加自然流畅。生成示例见下方教程中。
开源地址:https://github.com/index-tts/index-tts
☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞
配置要求:
电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 内存:16G以上
- 显卡:至少8G及以上显存的英伟达(NVIDIA)显卡
- CUDA:显卡支持的CUDA版本大于等于12.4版本(如不知道显卡支持的CUDA版本,可点击此链接查看:https://aiyy.info/supported-cuda-versions/)
- 整个包解压完约14.6G,要留足硬盘空间
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/indextts/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己下载安装,下载地址:https://www.winrar.com.cn/)
不要用Windows自带解压!!不要用360解压!!
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.bat”,稍等片刻会在浏览器中自动打开操作界面
③ 操作很简单,上传参考音频,再输入文本,最后点击“生成语音”,然后等待生成结果即可
注意事项:
- 参考音频需要清晰、无背景噪音的音频
- 文本建议分行输入,每行一个句子,每句后面接句号或者逗号,大段堆积会导致乱读现象,可以参考下方示例
- 输入中文文本时,混杂阿拉伯数字时,生成效果不佳,请用中文数字代替阿拉伯数字
- 可通过标点符号控制语音中的停顿,增加逗号、句号等可以让发音更自然,但目前模型不支持顿号”、”、”-“等其他标点符号,会读成C,请改成逗号或者句号
输入示例:
④ 生成结果位于底部,可以播放试听,点击右上角下载按钮可以保存至指定文件夹
参考音频:
生成结果:
在文件包中的“outputs”文件夹中也能找到生成结果
⑤ 当文本中有多音字时,可以用拼音控制读音,输入规范如图中所示,字母拼音后接声调,1为第一声调,2为第二声调,3为第三声调,4为第四声调
多音字生成结果: