各位有商业想法的可以抢一杯羹了,这应该是首个开源的Sora同架构DiT架构文生图开源模型!!!!从参数量上远超开源的Stable Diffusion模型,这远比某些开源代码仓库为空的公司强多了,而细数下来,腾讯在T2I领域开源的产品多达几十种, TencentAIlab
腾讯的混元文生图大模型是业内首个中文原生的DiT架构文生图开源模型。DiT(Diffusion Transformer)架构是一种基于Transformer的扩散模型,它具备强大的可扩展性,能够在参数量增加的情况下,进一步提升视觉模型生成效果及效率。这一模型的参数量达到了15亿,支持中英文双语输入及理解,这意味着它不仅能够处理中文内容,还能无缝对接国际化的应用场景。
分别下载对应的模型到models文件夹即可
工作流以及模型
链接:https://pan.quark.cn/s/fd8542e6278f
下载混元插件
https://github.com/city96/ComfyUI_ExtraModels
往期精彩回顾
腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。”
架构详情
Hunyuan-DiT是潜空间中的扩散模型,如下图所示。在潜在扩散模型之后,我们使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型来学习扩散模型的数据分布。我们的扩散模型是用变压器参数化的。为了对文本提示进行编码,我们利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。
理解自然语言指令并与用户进行多轮交互非常重要 文本到图像系统。它可以帮助构建一个动态和迭代的创建过程,将用户的想法变为现实 一步一步。在本节中,我们将详细介绍如何赋予 Hunyuan-DiT 执行多轮的能力 对话和图像生成。我们训练MLLM了解多轮用户对话 并输出新的文本提示以生成图像
与现有产品对比
下表显示了运行模型的要求(TensorRT 版本即将更新):
型号 | 张量RT | 批量大小 | GPU 内存 | 显卡 |
---|---|---|---|---|
DialogGen + 浑源-DiT | ✘ | 1 | 32克 | V100/A100系列 |
浑源-DiT | ✘ | 1 | 11克 | V100/A100系列 |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。