Dots.TTS：端到端自回归文本转语音系统-AI应用帮

请先查看下方配置要求，确认电脑能使用再下载，如果不知道什么是网盘、什么是压缩包以及什么是电脑配置，请勿下载

Dots.TTS 是一款 20 亿参数（2B）的端到端自回归文本转语音系统（TTS），采用完全连续（Fully Continuous）架构设计，在整个生成流程中不使用任何离散语音 Token。模型结合语义编码器、大语言模型（LLM）以及基于 Flow Matching 的声学生成头，可直接生成高质量 48kHz 音频，在语音自然度、情感表达与语音克隆方面达到开源 SOTA 水平。

相比传统基于离散 Token 的 TTS 系统，dots.tts 能更细腻地建模语音连续特征，从而提升语音稳定性、说话人相似度以及情绪表达能力。

核心功能：

🗣️ 高质量文本转语音（TTS）：生成自然流畅的 48kHz 高清语音
👤 高精度语音克隆：强大的说话人音色还原能力
🎭 情绪表达丰富：支持更加自然的语气与情感变化
🌍 多语言语音生成：支持中英文及多语言场景
⚡ 端到端连续生成：无需离散 Token 编码流程
🧠 高稳定性生成：降低卡顿、断句和语音崩坏问题

技术亮点：

🧬 Fully Continuous TTS 架构
🤖 LLM + Flow Matching 声学头
🔊 基于 48kHz AudioVAE 高保真输出
🏆 在 Seed-TTS-Eval 与多语言基准上达到开源 SOTA 水平
🌐 MiniMax 24 语言基准中取得最高平均说话人相似度

应用场景：

AI 数字人与虚拟主播
有声书与播客生成
游戏与影视角色配音
多语言 AI 语音助手
高拟真语音克隆系统

开源地址：https://github.com/rednote-hilab/dots.tts

☞☞☞☞☞☞ 右侧下载整合包 ☞☞☞☞☞☞

配置要求：

电脑需满足以下配置：

操作系统：Windows 10/11 64位
内存：建议16G以上
显卡：至少12G及以上显存的英伟达（NVIDIA）显卡
CUDA：显卡支持的CUDA版本大于等于12.8版本（如不知道显卡支持的CUDA版本，可点击此链接查看：https://aiyy.info/supported-cuda-versions/）
整个包解压完约20.9G，要留足硬盘空间

如何查看显卡品牌型号和显存：

打开任务管理器
点击“性能”
点击“GPU”
右上角可以看到显卡型号，下方可以看到显存大小

使用教程：

① 打开下载页面（https://aiyy.info/dots-tts/）点击页面右侧下载按钮（手机端在页面底部），下载整合包之后解压，建议使用winrar解压（解压软件在文件包中，或者可以自己下载安装，下载地址：https://www.winrar.com.cn/）

不要用Windows自带解压！！不要用360解压！！

注意：文件夹路径和文件名称（包括音频、图片、视频等文件名称）不要出现中文字符，否则部分软件会因识别不出而报错

② 双击“一键启动.bat”，稍等片刻会在浏览器中自动打开操作界面

③ 添加参考音频，输入参考音频对应的文本，再输入需要合成的文本，最后点击“开始合成”即可

④ 生成结果位于下方，可以播放试听，点击下载按钮可以保存至指定文件夹

⑤ 在文件包中的“outputs”文件夹中也能找到生成结果

声明： ① 本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考赞助计划。 ② 本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Dots.TTS：端到端自回归文本转语音系统

请先查看下方配置要求，确认电脑能使用再下载，如果不知道什么是网盘、什么是压缩包以及什么是电脑配置，请勿下载

☞☞☞☞☞☞ 右侧下载整合包 ☞☞☞☞☞☞

配置要求：

使用教程：

相关文章

Seed-VC：语音音色替换（更新V2版本）

Sketch-Gen：图片生成草图/线稿

KEEP：提升视频人脸分辨率

ComfyUI_V1：免费ComfyUI桌面版（官方内测版）

近期文章