注意:私人打包的程序没给杀毒软件交过保护费,被误报毒很正常,介意请勿下
EchoMimic是阿里巴巴达摩院开发的一项AI技术,能够通过给定的音频和一张面部照片,生成与音频口型动作完美匹配的说话视频。该技术在娱乐、教育、虚拟现实和在线会议等领域有广泛应用前景。
已更新EchoMimic_V2版本,支持上传半身图片,生成半身数字人
开源地址(V1版本):https://github.com/BadToBest/EchoMimic
开源地址(V2版本):https://github.com/antgroup/echomimic_v2
☞☞☞☞☞☞ 一键启动包在右侧下载 ☞☞☞☞☞☞
视频介绍(V2):
视频介绍(V1):
软件功能:
- 口型同步生成:通过音频和面部照片,生成口型动作与语音完美匹配的视频。
- 自然逼真:融合音频和面部标志点特征,生成的面部动画符合真实面部运动和表情变化。
- 多语言支持:支持多种语言和风格的口型同步,包括普通话、英语和歌唱。
应用场景:
- 娱乐:生成电影、电视和游戏中的角色对话,增强观众体验。
- 教育:创建互动教学视频,提高学习效果。
- 虚拟现实:在VR环境中生成逼真的面部动画,提升用户沉浸感。
- 在线会议:生成与音频同步的口型动画,提高远程交流效果。
- 增强现实:在AR应用中生成逼真的面部动画,增强用户互动体验。
配置要求:
电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 显卡:V1版本至少8G显存的英伟达(NVIDIA)显卡,V2版本至少12G显存的英伟达(NVIDIA)显卡可运行,稳定运行建议16G及以上,显卡性能越高生成速度越快
- CUDA >= 12.4
- 整个包解压完约19.8G,要留足硬盘空间
电脑如未安装CUDA可以查看安装教程:https://aiyy.info/requirements/
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/echomimic/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件在文件包中,或者可以自己下载安装,下载地址:https://www.winrar.com.cn/)
不要用Windows自带解压!!不要用360解压!!
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
V2版本使用教程:
② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面
③ 上传图片,上传音频,点击开始生成,生成结果会位于右侧,生成速度取决于显卡性能,可能时间会比较长,请耐心等待(生成速度参考:4060ti 16G 采样步数30的情况下,生成1秒需要5分钟左右)
上传图片的素材要求人形正脸,五官清晰可见,可参考本页面底部官方案例
音频需要纯人声,如果有背景音,建议先用剪映或者UVR5等工具先把背景音乐去掉
图片、音频等文件名称以及文件夹路径不要有中文!!!
图片需为1:1比例正方形,否则会压缩变形,人形正脸,五官清晰可见,人物半身照,手指露出,参考示例
目前只支持默认的一套姿势动作,最长可生成14秒时长,后续更新自定义肢体动作
④ 可以播放查看,点击右上角下载按钮可以保存至指定文件夹
V1版本使用教程
② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面
③ 上传图片,上传音频,可以调整参数(软件默认生成1200帧也就是50秒以内视频,高于50秒需要自行调节视频长度,视频长度=视频秒数×帧速率,最大长度5000帧)或保持默认,点击提交,生成结果会位于右侧
上传图片的素材要求人形正脸,五官清晰可见,可参考本页面底部官方案例
音频需要纯人声,如果有背景音,建议先用剪映或者UVR5等工具先把背景音乐去掉
图片、音频等文件名称以及文件夹路径不要有中文!!!
图片、音频等文件名称以及文件夹路径不要有中文!!!
图片、音频等文件名称以及文件夹路径不要有中文!!!
④ 可以播放查看,点击右上角下载按钮可以保存至指定文件夹