CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
标题:LLaVA-Med:在一天内为生物医学训练一个大型语言和视觉助手
作者:Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao
文章链接:https://arxiv.org/abs/2306.00890
项目代码:https://github.com/microsoft/LLaVA-Med
摘要:
对话式生成 AI 在赋予生物医学从业者权力方面表现出了非凡的前景,但目前的研究主要集中在单峰文本上。通过利用来自公共网络的数十亿图像-文本对,多模态对话式 AI 取得了快速进展,但这种通用领域视觉语言模型在理解和对话生物医学图像方面仍然缺乏复杂性。在本文中,我们提出了一种具有成本效益的方法来训练视觉语言会话助手,该助手可以回答生物医学图像的开放式研究问题。关键思想是利用从 PubMed Central 提取的大规模、覆盖面广的生物医学图形字幕数据集,使用 GPT-4 从字幕中自我指导开放式指令跟随数据,然后微调一个大的使用新颖的课程学习方法的一般领域视觉语言模型。具体来说,该模型首先学习使用图形说明对对齐生物医学词汇,然后使用 GPT-4 生成的指令跟踪数据学习掌握开放式对话语义,广泛模仿外行如何逐渐获取生物医学知识。这使我们能够在不到 15 小时的时间内(使用 8 个 A100)训练生物医学大型语言和视觉助手 (LLaVA-Med)。LLaVA-Med 展示了出色的多模态对话能力,可以遵循开放式指令来协助查询有关生物医学图像的信息。在三个标准的生物医学视觉问答数据集上,LLaVA-Med 在某些指标上优于之前有监督的最新技术。为了促进生物医学多模式研究,我们将发布我们的指令遵循数据和 LLaVA-Med 模型。
2.Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles
标题:Hiera:没有花里胡哨的分层视觉转换器
作者:Chaitanya Ryali, Yuan-Ting Hu, Daniel Bolya, Chen Wei, Haoqi Fan, Po-Yao Huang, Vaibhav Aggarwal, Arkabandhu Chowdhury
文章链接:https://arxiv.org/abs/2306.00989
项目代码:https://github.com/facebookresearch/hiera
摘要:
现代分层视觉转换器在追求监督分类性能的过程中添加了几个特定于视觉的组件。虽然这些组件导致有效的准确性和有吸引力的 FLOP 计数,但增加的复杂性实际上使这些转换器比它们的普通 ViT 转换器慢。在本文中,我们认为这种额外的体积是不必要的。通过使用强大的视觉借口任务 (MAE) 进行预训练,我们可以在不损失准确性的情况下从最先进的多级视觉转换器中剔除所有花哨的功能。在此过程中,我们创建了 Hiera,这是一种极其简单的分层视觉转换器,它比以前的模型更准确,同时在推理和训练过程中都明显更快。我们在图像和视频识别的各种任务上评估了 Hiera。我们的代码和模型可在此 https URL 上获得。
3.Diffusion Self-Guidance for Controllable Image Generation
标题:可控图像生成的扩散自导
作者:Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski
文章链接:https://arxiv.org/abs/2306.00986
项目代码:https://dave.ml/selfguidance/
摘要:
大规模生成模型能够从详细的文本描述中生成高质量的图像。然而,图像的许多方面很难或不可能通过文本传达。我们介绍了自我指导,这是一种通过指导扩散模型的内部表示来更好地控制生成图像的方法。我们证明了可以从这些表示中提取对象的形状、位置和外观等属性,并用于控制采样。自我指导的工作方式类似于分类器指导,但使用预训练模型本身中存在的信号,不需要额外的模型或训练。我们展示了如何组合一组简单的属性来执行具有挑战性的图像操作,例如修改对象的位置或大小,将一个图像中对象的外观与另一个图像的布局合并,将多个图像中的对象组合成一个图像,以及更多的。我们还展示了自我指导可用于编辑真实图像。有关结果和交互式演示,请访问此 https URL 上的项目页面