CogVideo 是目前最大的通用领域视频生成预训练模型,拥有 94 亿参数。它通过将预训练的文本到图像生成模型与多帧率分层训练策略结合,实现在输入文本描述的基础上生成对应的视频内容。
本期给大家带来基于ComfyUI的CogVideo 文生视频及图生视频工作流,包含CogVideoX-2B和CogVideoX-5B模型。
开源地址(源码):https://github.com/THUDM/CogVideo
开源地址(节点):https://github.com/kijai/ComfyUI-CogVideoXWrapper
☞☞☞☞☞☞ 右侧下载整合包 ☞☞☞☞☞☞
软件功能
- 文本到视频生成:将文本描述转换为视频内容。用户可以输入描述场景、动作或事件的文本,CogVideo 会根据这些描述生成与之匹配的视频片段。使用双向注意力模型对生成的低帧率视频进行插帧,增加视频的帧率,生成更加流畅和完整的视频。
- 图片到视频生成:根据参考图片及提示词生成视频。
- 高质量视频生成:即使输入的文本描述复杂,CogVideo 也能生成高质量的视频,保持视觉细节和内容一致性。
- 多帧率分层训练策略:通过多帧率分层训练策略,使模型能够更好地对齐文本和视频剪辑。这种策略有助于生成符合文本描述的视频,并提升生成视频的流畅性和质量。
应用场景
- 新闻报道自动生成:根据新闻文本描述,自动生成相关视频内容,提升新闻制作的效率和实时性。
- 电影和游戏预览:使用剧本或设计文档生成动态的场景和角色预览,为电影或游戏开发提供视觉参考和快速原型。
- 教育和培训:生成模拟操作视频或过程演示视频,帮助学生或员工理解复杂的概念或流程。
- 建筑可视化:根据建筑设计文本生成3D建筑环境和动画,为建筑师、设计师和客户提供直观的视觉呈现。
- 虚拟现实(VR):为 VR 应用生成逼真的 3D 环境和场景,增强用户的沉浸体验。
- 内容营销:基于产品或品牌的文本描述生成引人入胜的视频内容,帮助品牌提升市场影响力和用户参与度。
- 个性化视频制作:ss根据用户的个人喜好和需求,生成定制化的视频内容,为用户提供独特的视觉体验。
配置要求:
建议电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 显卡:建议12G显存及以上的英伟达(NVIDIA)显卡, 按照官方说法CogVideoX-2B 支持 GTX 1080TI 及以上显卡;CogVideoX-5B 支持 RTX 3060 及以上显卡
- 整个包解压完接近74G(包含文生视频、图生视频模型),要留足硬盘空间
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/comfyui-cogvideo/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件下载地址:https://www.winrar.com.cn/)
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动_gpu.bat”,稍等片刻会在浏览器中自动打开操作界面
文字生成视频:
③ 点击“加载”,选择文件包中的“CogVideoX-2B+5B文生视频.json”工作流,打开
④ 先选择模型,里面包含CogVideoX-2B和CogVideoX-5B模型,按照官网说法CogVideoX-2B 支持 GTX 1080TI 及以上显卡;CogVideoX-5B 支持 RTX 3060 及以上显卡,然后填写提示词(需要全英文),也可以选择性填写负面提示词,参数可以默认,最后点击“添加提示词队列”即可开始运行,等待运行完成后,在“合并为视频”节点中会出现生成结果
⑤ 右键点击生成结果,选择“save preview”可以保存至指定文件夹
⑥ 在文件包中的“ComfyUl”文件夹中的“output”文件夹也能找到生成结果
图片生成视频:
选择“CogVideoX-5B_I2V_图生视频”工作流,打开
上传参考图片,填写提示词,选择“CogVideoX-5B_I2V”模型,最后点击“添加提示词队列”
中间可能会出现这个报错,如显卡满足使用要求,点击关闭,再次点击“添加提示词队列”即可正常运行
等待程序运行结束后,右键点击生成结果,选择“save preview”可以保存至指定文件夹
在文件包中的“ComfyUl”文件夹中的“output”文件夹也能找到生成结果