TangoFlux 是一款创新的 AI 模型,专注于通过文本提示词生成高质量音效、背景音乐和其他声音片段。由新加坡科技设计大学和 NVIDIA 联合推出,它具有快速生成音频、长音频支持及自适应用户需求的能力,是音频生成领域的重要突破。
开源地址:https://github.com/declare-lab/TangoFlux
☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞
软件功能:
- 高效生成: 仅需数秒即可生成最长 30 秒的 44.1kHz 音频。
- 长音频支持: 支持生成长达 30 秒的音频,无论是音乐片段、环境音效还是特效音效。
- CRPO 优化: 引入 CLAP-Ranked Preference Optimization (CRPO) 框架,根据用户偏好优化生成的音频,提供更高质量的音频输出。
- 多场景音效支持:生成旋律、节奏和背景音乐;生成雨声、风声、海浪等自然声音;如爆炸、机械音效等;生成自然语音合成。
应用场景:
- 音乐与影视制作: 快速生成背景音乐或音效,激发创作灵感;根据提示词生成场景配乐,显著减少制作时间。
- 游戏开发: 为特定场景(如森林、战场等)提供背景音;生成武器攻击、技能释放等特效音效。
- 播客与有声书:生成转场音效或背景音; 生成情感化语音,为故事片段增添情感。
配置要求:
电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 显卡:至少8G显存的英伟达(NVIDIA)显卡
- CUDA >= 12.4
- 整个包解压完约15.5G,要留足硬盘空间
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/tangoflux/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己下载安装,下载地址:https://www.winrar.com.cn/)
不要用Windows自带解压!!不要用360解压!!
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.bat”,稍等片刻会在浏览器中自动打开操作界面
③ 输入提示词,可以输入中文提示词,然后点击“翻译为英文”即可翻译并自动填充至下方英文提示词框中,也可以直接在英文提示词框中输入英文提示词,然后调整时长及步数(最高支持生成30秒音频,步数建议保持50步),最后点击“生成音频”,生成结果位于右侧
④ 点击播放按钮可以试听,点击右上角下载按钮可以保存至指定文件夹
生成结果:
下雨的声音(The sound of rain.)
人的口哨声与自然的鸟鸣声(The whistles of man and the birds of nature.)
钢琴弹奏的声音(The sound of piano playing.)