Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌文生图巅峰之作Imagen 2登场,实测暴打DALL·E 3和Midjourney!

谷歌文生图巅峰之作Imagen 2登场,实测暴打DALL·E 3和Midjourney!

作者头像
新智元
发布于 2023-12-14 10:26:20
发布于 2023-12-14 10:26:20
4740
举报
文章被收录于专栏:新智元新智元

编辑:编辑部

【新智元导读】卷疯了卷疯了,谷歌刚刚放出了文生图AI模型的巅峰之作Imagen 2,实测效果逼真细腻,生成的美女图仿佛真人照片,对于提示的还原程度已经打败了DALL·E 3和Midjourney!最强文生图大模型这是要易主了?

提问:下面这张图,是AI生图还是照片?

如果不是这么问,绝大多数人大概都不会想到,这居然不是一张照片。

是的,只要在谷歌最新AI生图神器Imagen 2中输入这样的提示词——

A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile 一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑

就能得到开头那张无比逼真写实、比照片还像照片的图像了!

虽然圣诞节已经临近,但谷歌还在卷个不停——号称DALL·E 3最强竞品的文生图模型Imagen 2,终于重磅上线了。

刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagen 2来卷DALL·E 3了,2023年底的「卷王」称号,谷歌是实至名归。

不仅手指逼真,而且拿筷子的姿势也很标准

可以说,Imagen 2是目前文本转图像技术的巅峰之作,已经突破了AI生图的界限。

机器学习算法强大功能的加持下,Imagen 2可以将文本描述转换为生动清晰的高分辨率图像。

Imagen 2最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!

Imagen 2的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。

现在,在文生图领域,谷歌又竖立了新的标杆。

用自然语言就能生图的模型,又多了一个

现在,除了DALL·E 3之外,我们又有了一个仅凭自然语言就能生图的模型!

相比之下,Midjourney必须用复杂、专业的提示词,在易使用性上已经被两位竞争者甩出了很远。

仅凭简单文本,就能生存多样化的复杂图像,这类AI生图模型对于内容创作的影响是极其深远的。

对于依赖视觉内容的行业来说,这彻底改变了游戏规则,大大减少了传统内容制作所需的时间,内容创作者可以以前所未有的速度,制作高质量的视觉效果。

同时,Imagen 2还具有无可比拟的图像质量和多功能性。

Imagen 2用到了谷歌最先进的文本到图像扩散技术,生图质量极高、效果逼真,而且和用户的提示具有高度的一致性。

原因在于,它是使用训练数据的自然分布来生成更逼真的图像,而非采用预先编程的样式。

A jellyfish on a dark blue background

水母在深蓝色的背景下悠然漂浮

可以看到,Imagen 2的图像生成能力非常惊人。

无论是渲染错综复杂的风景、详细的物体,还是奇幻的场景,生成的图像都具有如此高的保真度,以至于它们可以与人类艺术家创作的图像相媲美,甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油画,描绘了摆放在砧板上的橙子。阳光穿过橙子的切片,柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射效果,同时展示了画家富有感情的笔触

有网友表示,看到Imagen的这张橙子图,真是让我大吃一惊。灯光穿过橙子后的投影,和提示中描述的意境非常吻合!

有人用同样的提示,让DALL·E 3生成了同样的橙子油画图,效果比起Imagen 3来说,的确弱了不少。

类似的,Midjourney生成的橙子,在真实感和意境层面,也要差上一截。

诗中意境,一键逼真还原

以往的「文本到图像」模型,通常是根据训练数据集的图像和标题中的详细信息,来生成与用户提示匹配的图像的。

但是它们有一个bug:对于每张图像和配对的标题,在细节质量和准确性上可能会有很大差异。

为了帮助创建更高质量和更准确的图像、更好地符合用户的提示,Imagen 2的训练数据集中添加了更多描述,帮助Imagen 2学习不同的标题风格,并更好地理解广泛的用户提示。

这种图像标题配对,就有助于Imagen 2更好地理解图像和文字之间的关系,大大提高了它对上下文和细微差别的理解。

就比如,美国作家Phillis Wheatley《晚间赞美诗》中的一句话「溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐」。

诗中绝美的意境,Imagen 2把要点全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下,Midjourney似乎对于文学描述的内容把握还是欠缺一些,大概率会在图中自动添加一个人物。不过整体画面效果还是不错的。

而到了DALL·E 3这里,它居然在图像上加了几行字,生成了一张「贺卡」?

在著名的小说《白鲸记》中,Herman Melville曾写下「想象一下大海的微妙之处,最可怕的地方在于生物如何在水下滑行,却在大多数情况下不易察觉,并且诡谲地隐藏在最可爱的蔚蓝色调下」。

Imagen 2也是很懂「海洋文学」的特点。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下,Midjourney和DALL·E 3一到深海,就瞬间就克苏鲁了起来……

Midjourney

DALL·E 3

儿童文学大家Frances Hodgson Burnett所著的《秘密花园》中,对知更鸟有这样一句描述:

知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。

快看,Imagen 2生成的这幅画,把常春藤、墙头、唱歌等暗藏的细节,悉数呈现了出来。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同样的提示词,Midjourney在真实感上还要差上几分。

而DALL·E 3相比上面两家,就更逊色了,尤其在植物和羽毛的细节上。

风格复刻,随意变换,更懂人类美学

一直以来,图像生成饱受诟病的问题之一,便是人物的手指生成。

这次,Imagen 2的数据集和模型进步,在许多领域取得了改进。

其中就包括渲染逼真的手部和人脸,以及保持图像不受干扰的视觉伪影。

同时,谷歌DeepMind根据人类对光线、取景、曝光、清晰度等特质的偏好,训练了一个专门的「图像美学模型」。

每张图像都被给予一个美学分数,这有助于调节Imagen 2在其训练数据集中赋予人类偏好的图像更多的权重。

这样一来,就提高了Imagen 2生成更高质量图像的能力。

使用提示「花」的AI生成的图像,美学分数从低(左)到高(右)

Imagen 2的扩散技术提供了高度的灵活性,使得更容易控制和调整图像的风格。

通过提供参考风格图像并结合文本提示,可以训练Imagen 2生成遵循相同风格的新图像。

通过使用参考图像和文本提示,Imagen 2可以更轻松地控制输出样式

更强的「修复」和「扩图」

此外,Imagen 2还支持图像编辑功能,如「修复」(inpainting)和「扩图」(outpainting)。

通过提供参考图像和图像掩码,我们可以用inpainting技术直接在原始图像中生成新内容。

在下面这幅原始图中,只要输入「绿色墙上有一个架子,架子上放着几本书和花瓶」,对应内容就在原图中生成了!

新内容毫不突兀,完美融入原图,浑然天成。

另外,我们还可以使用outpainting功能,给原始图像扩图。

夕阳下非洲大草原上长颈鹿和斑马的双人大头贴,一下子就扩成了全身照。

全面加持企业级场景,logo文案一键生成,中文也支持

现在,谷歌已经Imagen 2下放到开发者平台Vertex AI。

在Vertex AI平台上,客户可以使用直观的工具来自定义和部署Imagen 2,享受全面管理的基础设施和内置的隐私与安全保护。

在谷歌DeepMind的技术加持下,Imagen 2在图像质量上实现了显著提升,帮助开发者根据特定需求创造图像,其中包括:

- 根据自然语言的提示生成高质量、逼真、高分辨率且精美的图像;

- 支持多语言文本渲染,能够在图像中准确添加文本内容;

- 可以设计公司或产品的Logo,并将其嵌入到图像中;

- 提供视觉问题解答功能,可以从图像中生成标注,或就图像细节提出的问题给出具有信息性的文本回答。

高质量图像:借助于改进的图像和文本理解,以及多种创新的训练和建模技术,Imagen 2能够生成精准、高品质且逼真的图像。

文本渲染支持:可以根据提示内容,精准地渲染出正确的文本。

Imagen 2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语。

Logo设计:Imagen 2能为品牌、产品等生成多种创意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。

标注和问答:利用增强的图像理解能力,Imagen 2能够创建详细的长文标注,并对图像内元素提出的问题给出详细答案。

多语言提示:除了英语,Imagen 2还支持其他6种语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语),并计划在2024年初增加更多语言。这项功能还包括提示与输出之间的翻译能力,比如,可以用西班牙语提示,但指定输出为葡萄牙语。

图像加水印,生成更安全

为了帮助降低文本到图像生成技术的潜在风险和挑战,谷歌从设计和开发到产品部署都设置了强大的护栏。

Imagen 2 集成了SynthID——用于加水印和识别 AI 生成内容的尖端工具包。

这样,Google Cloud平台的客户可以直接在图像中添加数字水印,同时不会降低图像质量。

不过,即使在对图像进行过滤、裁剪或使用有损压缩方案保存后,SynthID仍然可以检测出。

除此之外,在向所有用户推出之前,谷歌会进行强大的安全测试,以最大限度地降低伤害风险。

从一开始,谷歌团队就投入对Imagen 2的数据安全训练,并添加了技术护栏来限制有问题的输出,如暴力、冒犯或色情内容。

同时,谷歌还对训练数据、输入提示和系统生成的输出进行安全检查。比如正在应用全面的安全过滤器,以避免生成名人图像等有潜在问题的内容。

网友惊呼:真·最强文生图模型来了!

Google DeepMind研究副总裁兼深度学习主管Oriol Vinyals尝试用Imagen 2为Gemini生成徽标。

另一位谷歌科学家用Imagen 2生成的图像如下。

下面是一只网友实测生成的蓝猫。

有网友认为,Imagen 2是同类产品中最好的。就像Gemini Ultra一样,看手和文字就足够了。

不过,他还吐槽了谷歌不向所有人开放产品的问题。

「像往常一样,谷歌宣布了一款大多数人无法使用的产品,这有什么意义?!」

参考资料:

https://deepmind.google/technologies/imagen-2/

https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​解密Prompt系列33. LLM之图表理解任务-多模态篇
上一章我们介绍了纯文本模态的表格理解任务,这一章我们聚焦多模态图表数据。先讨论下单纯使用prompt的情况下,图片和文字模态哪种表格模型理解的效果更好更好,再说下和表格相关的图表理解任务的微调方案。
风雨中的小七
2024/07/04
8830
​解密Prompt系列33. LLM之图表理解任务-多模态篇
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
当前大语言模型 (Large Language Models, LLMs) 如 GPT4 在遵循给定图像的开放式指令方面表现出了出色的多模态能力。然而,这些模型的性能严重依赖于对网络结构、训练数据和训练策略等方案的选择,但这些选择并没有在先前的文献中被广泛讨论。此外,目前也缺乏合适的基准 (benchmarks) 来评估和比较这些模型,限制了多模态 LLMs 的 发展。
机器之心
2023/08/08
4980
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
通用文档理解新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。
机器之心
2024/03/26
7700
通用文档理解新SOTA,多模态大模型TextMonkey来了
7B 最强多模态文档理解大模型 mPLUG-DocOwl 1.5
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max, Gemini, Claude3, GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢,距离这些闭源大模型具有很大差距 (例如DocVQA上开源7B SOTA 66.5,而Gemini Pro 1.5为86.5)。
CV君
2024/03/25
8910
7B 最强多模态文档理解大模型 mPLUG-DocOwl 1.5
腾讯厦大发布多模态大模型评测排行榜
项目链接(已获1.8K Stars):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
CV君
2023/08/31
7090
腾讯厦大发布多模态大模型评测排行榜
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题,尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和VQA数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得MLLM无法充分发挥潜力。
CV君
2024/04/25
2690
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码。
新智元
2023/08/07
1K0
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
优秀的多模态大模型(LLM)资源库
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业。笔者认为,如果说ChatGPT引领了AI革命的开端,那么多模态大模型一定代表着AI应用的未来。
山行AI
2023/06/26
2K0
优秀的多模态大模型(LLM)资源库
ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识
ChartMoE 是一个以 InternLM-XComposer2 模型为训练起点、引入 MoE Connector 结构的多模态大语言模型,具有先进的图表理解、图表重绘、图表编辑、重要部分高亮、转换图表类型等能力。ChartMoE 为图表(Chart)这种独特于自然图像的输入,设计了多阶段的图文对齐方式,每一个阶段产物都是 MoE Connector 中的一个专家,这样的训练方式和模型设计不仅能获得更全面的视觉表征、显著提高 MLLM 的图表理解能力,还可以在不加入通用数据的情景下,减少模型对通用知识的遗忘。
机器之心
2025/04/02
610
ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
机器之心专栏 机器之心编辑部 纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久,阿里达摩院便推出 mPLUG-Owl ,一个基于模块化实现的多模态大模型。 mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为一个多模态大模型。在 mPLUG 系列工作中,之前
机器之心
2023/05/09
7280
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
GPT4平替?业界首个公开使用的通用文档理解多模态大语言模型mPLUG-DocOwl尝鲜报告
ChatGPT、GPT4发布以来,国内外已经出现了许多纯文本多模态的工作,在部分指标上也有着逼近甚至超越的势头。然而其中一个在GPT4技术报告中展示的能力“文档理解”却一直没有模型涉足.多模态大语言模型mPLUG-Owl的升级版mPLUG-DocOwl,专注提升通用文档理解能力,并在ModelScope上线了体验Demo。我们赶紧去看下文档理解这个难题被解决得怎么样了。
CV君
2023/08/31
3630
GPT4平替?业界首个公开使用的通用文档理解多模态大语言模型mPLUG-DocOwl尝鲜报告
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.5K0
【论文解读】多模态大模型综述
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
论文 1:Multiscale Positive-Unlabeled Detection of AI-Generated Texts
机器之心
2023/08/04
3040
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
【论文复现】语言模型中的多模态链式推理
本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。
Eternity._
2024/11/23
2700
【论文复现】语言模型中的多模态链式推理
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。
机器之心
2024/02/06
4640
多模态LLM多到看不过来?先看这26个SOTA模型吧
图文理解能力强大!多模态对话生成模型:mPLUG-Owl,已开源!
miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
CV君
2023/08/31
7210
图文理解能力强大!多模态对话生成模型:mPLUG-Owl,已开源!
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?
机器之心
2024/01/17
8670
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
LLaVA-Read 在多模态任务中的高性能表现 !
指令微调已显示出在未见任务中的显著泛化能力,这促使大型语言模型(如GPT-4[3])的采用不断增加。近期,多模态语言模型从视觉指令微调中受益,在现实世界应用中取得了重大成功。这些模型利用了如CLIP-ViT的视觉编码器,为LLM赋予了图像理解能力。然而,在理解图像中的文本信息方面仍存在挑战,这很可能是由于训练数据集中自然图像的普遍性,正如所强调的。为了解决这个问题,[14]提出通过引入带噪声的光学字符识别(OCR)标注来改进端到端视觉指令微调模型,从而提高视觉与语言的协同对齐。此外,低分辨率视觉编码器也带来了挑战,因为至少需要九个像素才能识别一个单词。先前的工作探索了各种方法来提高编码器的分辨率,在多个下游任务中取得了显著的性能提升。然而,值得注意的是,高分辨率编码器通常需要更多资源进行图像编码,并产生更多的视觉标记供语言模型处理,这导致训练和推理过程中的低效率。提出了视觉标记合并和更智能的架构设计等方法来减轻这些挑战并提升模型性能。
AIGC 先锋科技
2024/08/06
2630
LLaVA-Read 在多模态任务中的高性能表现 !
语言模型中的多模态链式推理
本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。
Srlua
2024/12/01
3620
语言模型中的多模态链式推理
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。
CV君
2024/06/27
3940
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
推荐阅读
​解密Prompt系列33. LLM之图表理解任务-多模态篇
8830
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
4980
通用文档理解新SOTA,多模态大模型TextMonkey来了
7700
7B 最强多模态文档理解大模型 mPLUG-DocOwl 1.5
8910
腾讯厦大发布多模态大模型评测排行榜
7090
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
2690
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
1K0
优秀的多模态大模型(LLM)资源库
2K0
ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识
610
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
7280
GPT4平替?业界首个公开使用的通用文档理解多模态大语言模型mPLUG-DocOwl尝鲜报告
3630
【论文解读】多模态大模型综述
6.5K0
7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假
3040
【论文复现】语言模型中的多模态链式推理
2700
多模态LLM多到看不过来?先看这26个SOTA模型吧
4640
图文理解能力强大!多模态对话生成模型:mPLUG-Owl,已开源!
7210
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
8670
LLaVA-Read 在多模态任务中的高性能表现 !
2630
语言模型中的多模态链式推理
3620
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
3940
相关推荐
​解密Prompt系列33. LLM之图表理解任务-多模态篇
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档