腾讯发布了混元-DiT:首个中英双语DiT文本生成图像模型。混元-DiT是一个基于Diffusion Transformer的文本到图像生成模型,具备中英文的细粒度理解能力。为构建混元-DiT,开发团队精心设计了Transformer结构、文本编码器和位置编码,并建立了完整的数据管道,用于数据更新和评估,助力模型优化迭代。为了实现细粒度的文本理解,开发团队训练了一个多模态大语言模型来优化图像的文本描述。最终,混元-DiT能够与用户进行多轮对话,根据上下文生成并完善图像。

 

 

 

软件功能:

  • 双语文本生成图像
    混元DiT能够根据中文或英文文本提示生成图像,大大拓展了其在跨语言图像生成任务中的应用前景。
  • 深入理解中文元素
    该模型特别针对中文进行了优化,能够更好地理解和生成与中国传统文化相关的元素,如古诗、传统服饰和节日等。
  • 处理长文本能力
    支持长达256个标记的文本输入,使混元DiT能够理解复杂的长文本描述,并生成相匹配的图像作品。
  • 多尺寸图像生成
    混元DiT能够在不同尺寸比例下生成高质量的图像,从社交媒体帖子到大尺寸打印品,都能轻松应对。
  • 多轮对话与上下文理解
    通过与用户的多轮对话,混元DiT能够根据对话历史和上下文信息生成和优化图像,提升模型的互动性和创造力。
  • 高度一致的图像与文本
    混元DiT生成的图像与输入的文本提示内容高度一致,确保图像能够准确反映文本的意图和细节。
  • 艺术性与创意性
    混元DiT不仅能生成常见的图像,还能根据文本中的创意描述,生成具有艺术性和创意性的图像作品。

 

配置要求:

建议电脑满足以下配置:

  • 操作系统:Windows 10/11 64位
  • 显卡:至少12G显存的英伟达(NVIDIA)显卡

 

如何查看显卡品牌型号和显存:

  • 打开任务管理器
  • 点击“性能”
  • 点击“GPU”
  • 右上角可以看到显卡型号,下方可以看到显存大小

 

使用教程:

① 打开下载页面(https://aiyy.info/hunyuandit)点击页面右侧下载按钮,下载整合包之后解压,建议使用winrar解压(下载地址:https://www.winrar.com.cn/

注意:文件夹路径和文件名称不要出现中文字符,否则部分软件会因识别不出而报错

② 双击“一键启动.exe”,稍等片刻会在浏览器中自动打开操作界面

③ 首先选择图片尺寸,填写需要生成图片的提示词,采样步数及种子数(不了解AI生成图片原理的朋友按照默认数值即可),负面提示词保持默认即可,也可以增加,采样器及引导系数(不了解AI生成图片原理的朋友按照默认数值即可),点击生成,等待程序运行结束,右侧会显示生成结果

 

 

声明: ① 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考赞助计划。 ② 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。