ChatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。

宣传视频:

 

1、ChatTTS-官方版-视频教程:

 

2、ChatTTS-Mix版本-视频教程:

 

3、ChatTTS-API版本-视频教程:

 

软件功能:

  • 对话式 TTS: ChatTTS
    ChatTTS 针对对话式任务进行了优化,实现了自然流畅的语音合成,并支持多说话人。
  • 细粒度控制
    该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等,使合成的语音更加生动自然。
  •  更好的韵律
    ChatTTS 在韵律方面优于大多数开源 TTS 模型,并提供预训练模型,支持进一步的研究和开发。

 

配置要求:

建议电脑满足以下配置:

  • 操作系统:Windows 10/11 64位
  • CPU运行:无独立显卡、A卡、显存小于4G显存的英伟达(NVIDIA)显卡玩家,可以直接用CPU运行
  • 显卡:显存大于4G的英伟达(NVIDIA)显卡玩家,可以安装对应版本的cuda,用cuda运行(运算速度更快)

 

如何查看显卡品牌型号和显存:

  • 打开任务管理器
  • 点击“性能”
  • 点击“GPU”
  • 右上角可以看到显卡型号,下方可以看到显存大小

 

使用教程:

① 打开下载页面( https://aiyy.info/chattts ‎)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(下载地址:https://www.winrar.com.cn/

注意:文件夹路径和文件名称不要出现中文字符,否则部分软件会因识别不出而报错

 

一、ChatTTS官方版

② 整合包一共三个版本,本期介绍官方版,另外两个版本后续再一一介绍,如果是CPU运行,直接双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面

 

③ 如果是中高端的英伟达显卡,可以先双击“check gpu ”查看显卡是否可以用显卡运行(显卡可用会显示True,不可用会显示False)

 

④ 如果支持cuda运行,可以按照显卡型号对应的cuda版本,双击这两个脚本其中之一进行安装,像我的4060ti安装的是这个12.1版本的cuda

 

⑤安装好后,双击“一键启动-webUI.exe”,稍等片刻会在浏览器中自动打开操作界面

⑥ 输入需要转换的文本,选择音色,这里有十几个预设音色,其他参数及提示词如不需要可以不用更改,如果是短文本就点击Generate直接生成,如果是长文本就点击Generate EXT 生成,生成结果在下方,可以点击下载按钮将其保存到指定文件夹

 

⑦ 也可以选择随机生成音色,然后点击这个骰子按钮随机生成音色种子,如果觉得音色好听,就可以给它命名,并点击保存按钮将其保存下来,下次就可以在列表中直接选择这个音色

 

二、ChatTTS-Mix版本(个人体验觉得效果相对较好的版本)

① 如果是CPU运行,直接双击“一键启动-webui-mix.exe”,稍等片刻会在浏览器中自动打开操作界面,如果是4G显存以上的英伟达显卡,并且支持cuda运行,可以按照上方教程安装显卡型号对应的cuda版本,安装好后,双击“一键启动-webui-mix.exe”,稍等片刻会在浏览器中自动打开操作界面

可以直接选择长音频生成,输入需要生成的文本,选择音色,这里有十几个预设音色可供选择,按照需要进行参数调整,或者保持默认即可,点击生成音频,生成结果会显示在下方,可以点击下载按钮将其保存到指定文件夹

 

③ 如果想要更多音色,可以点击音色抽卡,输入一段测试文本,调整需要生成的音色数量,点击随机音色抽卡,右侧就会生成结果进行预览,试听一下,觉得满意的话就点击保存种子将音色保存下来,左侧是保存的音色列表,可以将其重新命名再保存,但是中间这列种子数要保留

 

④ 回到长音频生成,选择用seed生成音色,在下方填入刚才保存的音色种子数,就可以调用刚才生成的音色。

 

⑤ 此外这个版本还支持角色扮演,可以提供故事对话脚本,也可以用AI生成,不过需要API额度,脚本填好之后点击提取角色,在右侧就会显示对话的角色,给角色对应的音色种子,种子数可以在音色抽卡中的音色列表中选择,填好之后生成音频,就能得到多个角色对话的音频。

 

三、ChatTTS-API版本

① 如果是CPU运行,直接双击“一键启动-webui-API.exe”,稍等片刻会在浏览器中自动打开操作界面,如果是4G显存以上的英伟达显卡,并且支持cuda运行,可以按照上方教程安装显卡型号对应的cuda版本,安装好后,双击“一键启动-webui-API.exe”,稍等片刻会在浏览器中自动打开操作界面

② 输入文本,选择音色,提示词等,操作和前两个版本类似,数字转文本和精炼文本选项可以勾选上,调整推理文本的长度,其他参数如不需要调整可以保持默认,点击立即合成声音。合成结果在下方,可以试听一下,点击下载按钮可以保存到指定文件夹

 

声明: ① 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考赞助计划。 ② 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。