OmniGen 是智源推出的一款全新的扩散模型架构,专注于统一图像生成。它简化了图像生成的复杂流程,通过一个框架处理多种任务,例如文本生成图像、图像编辑和基于视觉条件的生成等。此外,OmniGen 通过统一学习结构实现了知识迁移,使其能够适应不同的任务和领域需求。该模型不仅高度简化和易用,还在图像生成领域展示了强大的灵活性。
开源地址:https://github.com/VectorSpaceLab/OmniGen
☞☞☞☞☞☞ 右侧下载整合包 ☞☞☞☞☞☞
软件特点:
- 统一性:OmniGen 能够一体化地处理多种图像生成任务,包括文本生成图像、主题驱动生成、图像编辑和基于视觉条件的生成。其创新之处在于能将计算机视觉中的传统任务转换为图像生成任务,从而提供一体化的图像生成体验。
- 简单性:OmniGen 摒弃了其他模型常见的繁琐操作流程,不需要 ControlNet、IP-Adapter 等插件支持,任务处理更为直观。用户可以通过简洁的指令完成复杂任务,极大地降低了操作门槛。
- 知识迁移:通过统一格式的学习,OmniGen 能够在不同任务间迁移知识,尤其适用于未见过的任务或领域。在这一过程中,OmniGen 探索了“思维链”机制的应用,使其在图像生成中拥有更灵活的推理和上下文学习能力。
软件功能:
- 文本生成图像:通过文本描述生成相应的图像。
- 图像编辑:根据用户需求对图像进行局部或整体编辑。
- 角色一致性生成:在多个图像中保持角色的外观一致。
- 基于视觉条件的生成:根据视觉条件(如姿态或边缘信息)生成符合特定要求的图像。
配置要求:
建议电脑满足以下配置:
- 操作系统:Windows 10/11 64位
- 显卡:8G显存可用但生成速度较慢,建议8G显存以上的英伟达(NVIDIA)显卡,
- CUDA >= 11.8
- 整个包解压完约24.5G,要留足硬盘空间
电脑如未安装CUDA可以查看安装教程:https://aiyy.info/requirements/
如何查看显卡品牌型号和显存:
- 打开任务管理器
- 点击“性能”
- 点击“GPU”
- 右上角可以看到显卡型号,下方可以看到显存大小
使用教程:
① 打开下载页面(https://aiyy.info/omnigen/)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(解压软件下载地址:https://www.winrar.com.cn/)
注意:文件夹路径和文件名称(包括音频、图片、视频等文件名称)不要出现中文字符,否则部分软件会因识别不出而报错
② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面
③ 上传图像(也可以不用上传),输入提示词(在提示词中需要参考上传图像的,图像名字格式要严格按照这个格式<img><|image_i|></img> ,否则识别不出来会报错,i可以改为编号1、2、3),然后调整宽高等参数,也可以保持默认,最后点击提交,生成结果会位于右侧
1、提示词生成图片
提示词:A curly-haired man in a red shirt is drinking tea.
翻译:一个穿着红衬衫的卷发男人正在喝茶。
2、用单张参考图生成图像
提示词:The woman in <img><|image_1|></img> waves her hand happily in the crowd.
翻译:<img><|image_1|></img>中的女人在人群中高兴地挥手。
3、根据姿势图生成图像
提示词:Generate a new photo using the following picture and text as conditions: <img><|image_1|><img>
A young boy is sitting on a sofa in the library, holding a book. His hair is neatly combed, and a faint smile plays on his lips, with a few freckles scattered across his cheeks. The library is quiet, with rows of shelves filled with books stretching out behind him.
翻译:使用以下图片和文本作为条件生成新照片:<img><|image_1|><img>
一个小男孩坐在图书馆的沙发上,手里拿着一本书。他的头发梳得整整齐齐,嘴唇上挂着淡淡的微笑,脸颊上散落着几颗雀斑。图书馆很安静,一排排排的书架上摆满了书,伸到他身后。
4、将两张图像中的人物放到一张图像中
提示词:Two woman are raising fried chicken legs in a bar. A woman is <img><|image_1|></img>. The other woman is <img><|image_2|></img>.
翻译:两个女人在酒吧里举起炸鸡腿。一个女人是<img><|image_1|></img>。另一个女人是<img><|image_2|></img>。
5、将人群中的特定人物提取出来放到一张图像中
提示词:A man and a woman are sitting at a classroom desk. The man is the man with yellow hair in <img><|image_1|></img>. The woman is the woman on the left of <img><|image_2|></img>.
翻译:一个男人和一个女人坐在教室的桌子旁。这个男人就是<img><|image_1|></img>中的黄头发男人。这个女人是<img><|image_2|></img>左侧的女人。
6、更改图像中的物体
提示词:<img><|image_1|><img>
Replace the mug with a clear glass filled with sparkling iced cola.
翻译:<img><|image_1|><img>
把杯子换成装满起泡冰可乐的透明玻璃杯。