CosyVoice是阿里巴巴推出的一款支持情感控制和粤语的语音生成工具。该项目采用多语言音频生成模型,基于超过17万小时的多语言音频数据进行训练,具备多语言语音生成、音色和情感控制等功能。
开源地址:https://github.com/FunAudioLLM/CosyVoice
☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞
软件功能:
- 多语言语音生成:支持中、英、日、粤、韩五种语言的生成,效果显著优于传统语音生成模型。
- 3秒克隆音色:只需3~10秒的原始音频,即可生成模拟音色。
- 跨语言语音合成:实现不同语言之间的语音合成。
- 情感控制:支持生成具有多种情感表达的语音,包括快乐、兴奋、悲伤、愤怒等。
- 细粒度控制:通过富文本或自然语言,对生成语音的情感和韵律进行细粒度控制。
应用场景:
- 智能客服:提供拟人化的语音服务,提高客户满意度。
- 有声读物:生成高质量的有声读物,提升听书体验。
- 车载导航:提供情感化的语音导航,提高驾驶体验。
- 教育辅导:生成拟人化的语音教学内容,提高学习效果。
- 语音交互:广泛适用于各种需要语音交互的场景,提升用户体验。
配置要求:
建议电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 显卡:至少6G显存的英伟达(NVIDIA)显卡,显卡性能越高生成速度越快
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/cosyvoice/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件下载地址:https://www.winrar.com.cn/)
注意:文件夹路径和文件名称不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面
③ 用训练好的声音模型直接生成音频:输入文本(每句话最后要有句号,如果最后一句话最后没有句号,则不会生成),选择“预训练音色”,选择音色模型,点击“生成音频”,生成结果位于底部,可以播放试听,也可以点击右上角下载按钮保存到指定文件夹
④ 3秒复刻音色并生成音频:输入文本(每句话最后要有句号,如果最后一句话最后没有句号,则不会生成),选择“3s极速复刻”,放入3秒参考音频(要求为干音,音频无杂音,无背景音),输入参考音频对应的文本,点击“生成音频”,生成结果位于底部,可以播放试听,也可以点击右上角下载按钮保存到指定文件夹
⑤ 跨语种复刻音色并生成音频:输入文本(文本需要和参考音频文本不同语种,每句话最后要有句号,如果最后一句话最后没有句号,则不会生成),选择“跨语种复刻”,放入3秒参考音频(要求为干音,音频无杂音,无背景音),输入参考音频对应的文本,点击“生成音频”,生成结果位于底部,可以播放试听,也可以点击右上角下载按钮保存到指定文件夹