EchoMimic是阿里巴巴达摩院开发的一项AI技术,能够通过给定的音频和一张面部照片,生成与音频口型动作完美匹配的说话视频。该技术在娱乐、教育、虚拟现实和在线会议等领域有广泛应用前景。

开源地址:https://github.com/BadToBest/EchoMimic

☞☞☞☞☞☞  一键启动包在右侧下载  ☞☞☞☞☞☞

 

视频教程:

软件功能:

  • 口型同步生成:通过音频和面部照片,生成口型动作与语音完美匹配的视频。
  • 自然逼真:融合音频和面部标志点特征,生成的面部动画符合真实面部运动和表情变化。
  • 多语言支持:支持多种语言和风格的口型同步,包括普通话、英语和歌唱。

 

应用场景:

  • 娱乐:生成电影、电视和游戏中的角色对话,增强观众体验。
  • 教育:创建互动教学视频,提高学习效果。
  • 虚拟现实:在VR环境中生成逼真的面部动画,提升用户沉浸感。
  • 在线会议:生成与音频同步的口型动画,提高远程交流效果。
  • 增强现实:在AR应用中生成逼真的面部动画,增强用户互动体验。

配置要求:

建议电脑满足以下配置:

  • 操作系统:Windows 10/11 64位
  • 显卡:至少8G显存的英伟达(NVIDIA)显卡,显卡性能越高生成速度越快

 

如何查看显卡品牌型号和显存:

  • 打开任务管理器
  • 点击“性能”
  • 点击“GPU”
  • 右上角可以看到显卡型号,下方可以看到显存大小

 

使用教程:

① 打开下载页面(https://aiyy.info/echomimic/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件下载地址:https://www.winrar.com.cn/

注意:文件夹路径和文件名称(包括音频、图片、视频等素材名称)不要出现中文字符,否则部分软件会因识别不出而报错

② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面

③ 上传图片,上传音频,可以调整参数(软件默认生成1200帧也就是50秒以内视频,高于50秒需要自行调节视频长度,视频长度=视频秒数×帧速率,最大长度5000帧)或保持默认,点击提交,生成结果会位于右侧

上传图片的素材要求人形正脸,五官清晰可见,可参考本页面底部官方案例

音频需要纯人声,如果有背景音,建议先用剪映或者UVR5等工具先把背景音乐去掉

图片、音频等文件名称以及文件夹路径不要有中文!!!

图片、音频等文件名称以及文件夹路径不要有中文!!!

图片、音频等文件名称以及文件夹路径不要有中文!!!

④ 可以播放查看,点击右上角下载按钮可以保存至指定文件夹

 

官方案例展示:

声明: ① 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考赞助计划。 ② 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。