CosyVoice：三秒克隆音色/说方言/情绪控制（更新2.0版本）-AI应用帮

CosyVoice是阿里巴巴推出的一款支持音色克隆的语音合成工具。该项目采用多语言音频生成模型，基于超过17万小时的多语言音频数据进行训练，具备多语言语音生成、音色和情感控制等功能。

2024.12.26更新2.0版本，使用CosyVoice2-0.5B模型，支持方言、情绪控制等

开源地址：https://github.com/FunAudioLLM/CosyVoice

参考示例

https://funaudiollm.github.io/cosyvoice2/

☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞

参考声音原声：

音色克隆后生成结果：

上海话

粤语

四川话

长沙话

软件功能：

3秒克隆音色：只需3~10秒的原始音频，即可生成模拟音色。
跨语言语音合成：实现不同语言之间的语音合成，中文、英文、日语、韩语、中国方言（粤语、四川话、上海话、天津话、武汉话、长沙话、郑州话等）
情感控制：支持生成具有多种情感表达的语音，包括快乐、兴奋、悲伤、愤怒等。
细粒度控制：通过富文本或自然语言，对生成语音的情感和韵律进行细粒度控制。

应用场景：

智能客服：提供拟人化的语音服务，提高客户满意度。
有声读物：生成高质量的有声读物，提升听书体验。
车载导航：提供情感化的语音导航，提高驾驶体验。
教育辅导：生成拟人化的语音教学内容，提高学习效果。
语音交互：广泛适用于各种需要语音交互的场景，提升用户体验。

配置要求：

电脑满足以下配置：

操作系统：Windows 10/11 64位
显卡：至少8G显存的英伟达（NVIDIA）显卡
CUDA >= 12.1
整个包解压完约22.5G，要留足硬盘空间

电脑如未安装CUDA可以查看安装教程：https://aiyy.info/requirements/

如何查看显卡品牌型号和显存：

打开任务管理器
点击“性能”
点击“GPU”
右上角可以看到显卡型号，下方可以看到显存大小

使用教程：

① 打开下载页面（https://aiyy.info/cosyvoice/）点击页面右侧下载按钮，下载整合包之后解压，建议使用winrar解压（解压软件下载地址：https://www.winrar.com.cn/）

注意：文件夹路径和文件名称不要出现中文字符，否则部分软件会因识别不出而报错

2.0版本使用教程：

② 双击“一键启动.exe”，稍等片刻会在浏览器中自动打开操作界面

③ 3秒复刻音色并生成音频：输入文本（每句话最后要有句号，如果最后一句话最后没有句号，则不会生成），选择“3s声音克隆”，放入参考音频（时长3秒-30秒，要求为干音，音频无杂音，无背景音），程序会自动识别参考音频文本，如果识别不准确，可以手动修改，点击“生成语音”，生成结果位于底部，可以播放试听，也可以点击右上角下载按钮保存到指定文件夹

参考声音原声：

音色克隆后生成结果：

⑤ 指令语音生成：输入文本（每句话最后要有句号，如果最后一句话最后没有句号，则不会生成），选择“指令语音生成”，放入参考音频（时长3秒-30秒，要求为干音，音频无杂音，无背景音），程序会自动识别参考音频文本，如果识别不准确，可以手动修改，输入语音风格指令（如情绪、语气、语种等），点击“生成语音”，生成结果位于底部，可以播放试听，也可以点击右上角下载按钮保存到指定文件夹

各种语种及方言，支持中文、英文、日语、韩语、中国方言（粤语、四川话、上海话、天津话、长沙话、郑州话等）

参考声音原声：

上海话

粤语

四川话

长沙话

说话语气、情绪控制，如Happy（开心）、Sad（悲伤）、Surprise（惊喜）、Neutral（自然）、Angry（生气）等

参考声音原声：

Happy（开心）

另外还支持角色扮演控制、说话情境控制等，可参考下方网址中的示例

https://funaudiollm.github.io/cosyvoice2/

1.0版本使用教程：

② 双击“一键启动.exe”，稍等片刻会在浏览器中自动打开操作界面

③ 用训练好的声音模型直接生成音频：输入文本（每句话最后要有句号，如果最后一句话最后没有句号，则不会生成），选择“预训练音色”，选择音色模型，点击“生成音频”，生成结果位于底部，可以播放试听，也可以点击右上角下载按钮保存到指定文件夹

④ 3秒复刻音色并生成音频：输入文本（每句话最后要有句号，如果最后一句话最后没有句号，则不会生成），选择“3s极速复刻”，放入3秒参考音频（要求为干音，音频无杂音，无背景音），输入参考音频对应的文本，点击“生成音频”，生成结果位于底部，可以播放试听，也可以点击右上角下载按钮保存到指定文件夹

⑤ 跨语种复刻音色并生成音频：输入文本（文本需要和参考音频文本不同语种，每句话最后要有句号，如果最后一句话最后没有句号，则不会生成），选择“跨语种复刻”，放入3秒参考音频（要求为干音，音频无杂音，无背景音），输入参考音频对应的文本，点击“生成音频”，生成结果位于底部，可以播放试听，也可以点击右上角下载按钮保存到指定文件夹

声明： ① 本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考赞助计划。 ② 本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

CosyVoice：三秒克隆音色/说方言/情绪控制（更新2.0版本）

☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞

软件功能：

应用场景：

配置要求：

使用教程：

相关文章

StableAvatar：图片生成数字人

ComfyUI_VTON：图片换衣工作流

KEEP：提升视频人脸分辨率

FRESCO：视频一键重绘

近期文章