Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务

OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务

作者头像
AI科技评论
发布于 2021-01-08 07:14:57
发布于 2021-01-08 07:14:57
9.9K0
举报
文章被收录于专栏:AI科技评论AI科技评论

编译 | 蒋宝尚、陈彩娴

2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。

2021年,OpenAI 联合创始人 Ilya Sutskever预测语言模型会转向视觉领域。他说:“下一代模型,或许可以针对文本输入,从而编辑和生成图像。”

听话听音!OpenAI 践行了这一想法,几个小时前,OpenAI通过官方推特发布了两个崭新的网络,一个叫DALL-E(参见今天推送的头条),能够通过给定的文本创建出图片;一个叫CLIP,能够将图像映射到文本描述的类别中。

其中,CLIP可以通过自然语言监督有效学习视觉概念,从而解决目前深度学习主流方法存在的几个问题:

1.需要大量的训练数据集,从而导致较高的创建成本。

2.标准的视觉模型,往往只擅长一类任务,迁移到其他任务,需要花费巨大的成本。

3.在基准上表现良好的模型,在测试中往往不尽人意。

具体而言,OpenAI从互联网收集的4亿(图像、文本)对的数据集,在预训练之后,用自然语言描述所学的视觉概念,从而使模型能够在zero-shot状态下转移到下游任务。这种设计类似于GPT-2和GPT-3的“zero-shot”。

这一点非常关键,因为这意味着,可以不直接针对基准进行优化,同时表现出了优越的性能:稳健性差距(robustness gap)缩小了75%,性能和ResNet507相当。换句话说。无需使用其训练的128万个训练样本中的任何一个,即可与原始ResNet-50 在 Image Net Zero-shot的精确度相匹配。

如上图所示,虽然两个模型在ImageNet测试集上的准确度相差无几,但CLIP的性能更能代表在非ImageNet设置下的表现。

CLIP网络中做了大量的工作是关于zero-shot 迁移的学习、自然语言监督、多模态学习。其实,关于零数据学习的想法可以追溯到十年前,但是最近在计算机视觉中火了起来。零数据学习的一个重点是:利用自然语言作为灵活的预测空间,从而实现泛化和迁移。另外,在2013年,斯坦福大学的Richer Socher通过训练CIFAR-10上的一个模型,在词向量嵌入空间中进行预测,并表明模型可以预测两个“未见过”的类别。Richer的工作提供了一个概念证明。

CLIP是过去一年,从自然语言监督中学习视觉表征工作中的一部分。CLIP使用了更现代的架构,如Transformer,包括探索自回归语言建模的Virtex,研究掩蔽语言建模的ICMLM等等。

1

方法

前面也提到,CLIP训练的数据来源于互联网上4亿数据对。用这些数据,CLIP需要完成的任务是:给定一幅图像,在32,768个随机抽样的文本片段中,找到能够匹配的那一个。

完成这个任务,需要CLIP模型学会识别图像中的各种视觉概念,并将概念和图片相关联。因此,CLIP模型可以应用于几乎任意的视觉分类任务。例如,如果一个数据集的任务是对狗与猫的照片进行分类,而CLIP模型预测 "一张狗的照片 "和 "一张猫的照片 "这两个文字描述哪个更匹配。

如上图所示,CLIP网络工作流程:预训练图编码器和文本编码器,以预测数据集中哪些图像与哪些文本配对。然后,将CLIP转换为zero-shot分类器。此外,将数据集的所有类转换为诸如“一只狗的照片”之类的标签,并预测最佳配对的图像。

总体而言,CLIP能够解决:

1.昂贵的数据集:ImageNet中1400万张图片的标注,动用了25,000名劳动力。相比之下,CLIP使用的是已经在互联网上公开提供的文本-图像对。自我监督学习、对比方法、自我训练方法和生成式建模也可以减少对标注图像的依赖。

2.任务单一:CLIP可以适用于执行各种视觉分类任务,而不需要额外的训练。

3.实际应用性能不佳:深度学习中“基准性能”与“实际性能”之间存在差距是一直以来的“痛”。这种差距之所以会出现,是因为模型“作弊”,即仅优化其在基准上的性能,就像一个学生仅仅通过研究过去几年的试题就能通过考试一样。CLIP模型可以不必在数据上训练,而是直接在基准上进行评估,因此无法以这种方式来“作弊”。

此外,为了验证“作弊的假设”,测量了CLIP在有能力“研究” ImageNet时性能会如何变化。当线性分类器根据CLIP的特性安装时,线性分类器能够将CLIP在ImageNet测试仪上的准确性提高近10%。但是,在评估“鲁棒性”的性能时,这个分类器在其余7个数据集的评估套件中并没有取得更好的平均表现。

2

优势

1. CLIP非常高效

CLIP从未经过滤的、变化多端的、极其嘈杂的数据中学习,且希望能够在零样本的情况下使用。从GPT-2和GPT-3中,我们可以知道,基于此类数据训练的模型可以实现出色的零样本性能;但是,这类模型需要大量的训练计算。为了减少所需的计算,我们专注研究算法,以提高我们所使用方法的训练效率。

我们介绍了两种能够节省大量计算的算法。第一个算法是采用对比目标(contrastive objective),将文本与图像连接起来。最初我们探索了一种类似于VirTex的图像到文本的方法,但这种方法在拓展以实现最先进的性能时遇到了困难。在一些小型与中型实验中,我们发现CLIP所使用的对比目标在零样本ImageNet分类中的效率提高了4到10倍。第二个算法是采用Vision Transformer,这个算法使我们的计算效率比在标准ResNet上提高了3倍。最后,性能最好的CLIP模型与现有的大规模图像模型相似,在256个GPU上训练了2周。

我们最初是尝试训练图像到字幕的语言模型,但发现这种方法在零样本迁移方面遇到了困难。在16 GPU的日实验中,一个语言在训练了4亿张图像后,在ImageNet上仅达到16%的准确性。CLIP的效率更高,且以大约快10倍的速度达到了相同的准确度。

2. CLIP灵活且通用

由于CLIP模型可以直接从自然语言中学习许多视觉概念,因此它们比现有的ImageNet模型更加灵活与通用。我们发现,CLIP模型能够在零样本下执行许多不同的任务。为了验证这一点,我们在30多个数据集上测量了CLIP的零样本性能,任务包括细粒度物体分类,地理定位,视频中的动作识别和OCR等。其中,学习OCR时,CLIP取得了在标准ImageNet模型中所无法实现的令人兴奋的效果。比如,我们对每个零样本分类器的随机非樱桃采摘预测进行了可视化。

这一发现也反映在使用线性探测学习评估的标准表示中。我们测试了26个不同的迁移数据集,其中最佳的CLIP模型在20个数据集上的表现都比最佳的公开ImageNet模型(Noisy Student EfficientNet-L2)出色。

在27个测试任务的数据集中,测试任务包括细粒度物体分类,OCR,视频活动识别以及地理定位,我们发现CLIP模型学会了使用效果更广泛的图像表示。与先前的10种方法相比,CLIP模型的计算效率也更高。

3

局限性

尽管CLIP在识别常见物体上的表现良好,但在一些更抽象或系统的任务(例如计算图像中的物体数量)和更复杂的任务(例如预测照片中距离最近的汽车有多近)上却遇到了困难。在这两个数据集上,零样本CLIP仅仅比随机猜测要好一点点。与其他模型相比,在非常细粒度分类的任务上,例如区分汽车模型、飞机型号或花卉种类时,零样本CLIP的表现也不好。

对于不包含在其预训练数据集内的图像,CLIP进行泛化的能力也很差。例如,尽管CLIP学习了功能强大的OCR系统,但从MNIST数据集的手写数字上进行评估时,零样本CLIP只能达到88%的准确度,远远低于人类在数据集中的99.75%精确度。最后,我们观察到,CLIP的零样本分类器对单词构造或短语构造比较敏感,有时还需要试验和错误“提示引擎”才能表现良好。

4

更广的影响

CLIP允许人们设计自己的分类器,且无需使用任务特定的训练数据。设计分类的方式会严重影响模型的性能和模型的偏差。例如,我们发现,如果给定一组标签,其中包括Fairface种族标签和少数令人讨厌的术语,例如“犯罪”,“动物”等,那么该模型很可能将大约32.3%的年龄为0至20岁的人的图像化为糟糕的类别。但是,当我们添加“儿童”这一类别时,分类比率将下降到大约8.7%。

此外,由于CLIP不需要任务特定的训练数据,因此它可以更轻松地解锁某些任务。一些任务可能会增加隐私或监视相关的风险,因此我们通过研究CLIP在名人识别方面的表现来探索这一担忧。对100个名人图像进行识别时,CLIP实际分类的准确率最高为59.2%,对1000个名人进行识别时,准确率最高为43.3%。值得注意的是,尽管通过任务不可知的预训练可以达到这些效果,但与广泛使用的生产级别模型相比,该性能并不具有竞争力。

5

结论

借助CLIP,我们测试了互联网的自然语言上与任务无关的预训练(这种预训练为NLP的最新突破提供了动力)是否可以用来改善其他领域的深度学习性能。目前,CLIP应用于计算机视觉所取得的效果令我们非常兴奋。像GPT家族一样,CLIP在预训练期间学习了我们通过零样本迁移所展示的各种任务。CLIP在ImageNet上的表现也令人惊喜,其中零样本评估展示了CLIP模型的强大功能。

原文链接:

https://openai.com/blog/clip/


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。它使用对比损失学习两个独立的单模编码器,这是表示学习中最有效的损失之一 。然而,CLIP的成功在很大程度上依赖于庞大的预训练数据集。原始CLIP模型在4亿图像文本对上进行32个epoch的预训练,需要数千个GPU天。在计算资源有限的情况下,这具有明显的挑战性[1, 17]。最近,从网站爬取的大规模图像文本数据集(如LAION400M 和LAION5B [13])在日常生活中广泛应用于视觉语言预训练。数据Comp 从Common Crawl的网页数据中提取图像文本对,并采用诸如基本过滤、CLIP评分过滤和基于文本图像过滤等策略。然而,训练数据中的语义重复问题仍然存在,这不仅可能影响表示学习,还可能浪费计算资源 。
未来先知
2024/08/29
4740
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
深度学习--CLIP算法(文本搜图片,图片搜图片)
  CLIP全称Constrastive Language-Image Pre-training,是OPAI推出的采用对比学习的文本-图像预训练模型。CLIP惊艳之处在于架构非常简洁且效果好到难以置信,在zero-shot文本-图像检索,zero-shot图像分类,文本→图像生成任务guidance,open-domain 检测分割等任务上均有非常惊艳的表现,本文将对CLIP做一些初步的介绍。
机器学习AI算法工程
2023/09/04
2.4K0
深度学习--CLIP算法(文本搜图片,图片搜图片)
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
机器之心专栏 机器之心编辑部 本文提出了 Tip-Adapter,一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。 论文链接:https://arxiv.org/pdf/2207.09519.pdf 代码链接:https://github.com/gaopengcuhk/Tip-Adapter 一.研究背景 对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像识别。为了进一步提升 CLIP 的迁移性
机器之心
2022/09/26
1.1K0
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
《从自然语言监督中学习可迁移的视觉模型》解读
最近几天读了这篇文章,由于第一遍读,理解的不是很深,望大家理解。《从自然语言监督中学习可迁移的视觉模型》(Learning Transferable Visual Models From Natural Language Supervision)是由OpenAI于2021年发表的一篇开创性论文,提出了一种名为CLIP(Contrastive Language-Image Pre-training)的模型。该研究的核心目标是利用自然语言作为监督信号,训练出能够泛化到多种视觉任务的模型。
摆烂小白敲代码
2025/01/24
1150
用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩
别再怕图片搜索结果牛头不对马嘴了,你可以试试这个精准图片搜索,来自OpenAI最新的技术CLIP。
量子位
2021/02/01
2.1K0
用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人 | 在线可玩
OpenAI CLIP 论文解读
模型架构分为两部分,图像编码器和文本编码器,图像编码器可以是比如 resnet50,然后文本编码器可以是 transformer。
BBuf
2021/03/25
5.1K0
使用 CLIP 对没有标记的图像进行零样本无监督分类
深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中,模型的性能会提高,但用于监督学习的大规模数据集的标注成本时非常高的,需要专家注释者花费大量时间。为了解决这个问题,人们开始寻找更便宜的标注的标签来源,是否有可能从已经公开的数据中学习高质量的图像分类模型?
deephub
2022/11/11
1.7K0
使用 CLIP 对没有标记的图像进行零样本无监督分类
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
这就是最近研究人员提出的一种新模块化框架——LENS🔍(Language-Enhanced Neural System)的识别效果。
量子位
2023/08/05
5210
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源
CVPR 2014| BioCLIP:生命之树的视觉基础模型
BioCLIP 是一个利用图像和结构化生物知识回答生物学问题的多模态大模型。通过在生命之树(生物学分类)上训练模型,增强了对自然界层次结构的理解,具有强大的可泛化性。文章还创建了 TreeOfLife-10M 生物图像数据集,代码和数据集均已开源。
实验盒
2024/06/05
5100
CVPR 2014| BioCLIP:生命之树的视觉基础模型
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
最近,大规模的视觉语言模型(VLMs),如CLIP [1]及其变体,为计算机视觉提供了一种新范式,并在许多下游任务上表现出优越的泛化性能,例如零样本泛化[5],少样本分类[6]和跨分布(OOD)检测。VLMs通常预先在数百万对视觉语言数据上进行训练,使它们能够理解开放词汇视觉概念。它们在与手工艺文本 Prompt (如“一张{类别}的照片”)结合时,展示了出色的泛化能力。
AIGC 先锋科技
2024/12/19
3070
结合异构图神经网络,HeGraphAdapter 提升 CLIP 模型性能研究 !
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
deephub
2024/04/01
9980
文生图的基石CLIP模型的发展综述
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
一种基于多模态(图像、文本)对比训练的神经网络。它可以在给定图像的情况下,使用自然语言来预测最相关的文本片段,而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3,具备出色的零射击能力,可以应用于多种多模态任务。
汀丶人工智能
2023/10/31
9480
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
使用 CLIP 对没有任何标签的图像进行分类
深度图像分类模型通常在大型带注释数据集上以监督方式进行训练。尽管模型的性能会随着更多注释数据的可用而提高,但用于监督学习的大规模数据集通常难以获得且成本高昂,需要专家注释者花费大量时间。考虑到这一点,人们可能会开始怀疑是否存在更便宜的监督资源。简而言之,是否有可能从已经公开可用的数据中学习高质量的图像分类模型?
小白学视觉
2022/12/27
3.7K0
使用 CLIP 对没有任何标签的图像进行分类
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
眼科疾病如青光眼、黄斑变性、糖尿病视网膜病变等对全球视力健康构成了重大威胁,常常导致视力减弱甚至失明。[1]然而,由于医疗资源短缺,特别是服务不足的地区和发展中国家,及时的诊断和治疗仍然是一个关键的挑战。[2; 3]这种资源配置的不公平性使得眼科疾病的早期检测和干预尤其困难,从而进一步加重了这些疾病的负担。
AIGC 先锋科技
2024/11/01
6430
EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型 !
AI绘画中CLIP文本-图像预训练模型
OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行训练,学习图像内容与自然语言描述之间的对应关系。这种方法使得模型能够在没有特定任务训练的情况下,对广泛的视觉概念进行理解和分类。
Dlimeng
2023/12/22
1.2K0
AI绘画中CLIP文本-图像预训练模型
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
大型视觉语言模型(VLMs),如CLIP ,彻底改变了图像分类。尽管早期的深度分类模型如AlexNet 和ResNet 取得了进展,但它们处理开放词汇分类的能力对它们在各种领域的适应性贡献显著。此外,通过在特定数据集上对它们进行微调,它们达到了惊人的准确度。
AIGC 先锋科技
2024/07/08
1850
CLIPex 用以增强如CLIP之类的大型视觉语言模型(VLMs)的可解释性 !
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。
汀丶人工智能
2023/11/01
4000
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
北大邹月娴:视觉-语言预训练模型演进及应用
作者丨邹月娴整理 | 维克多 编辑 | 青暮 预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性,只需在小规模标注数据上进行微调,就可以在相应任务上有所提高。但相关研究的进展如何?还有哪些问题需要进一步探索? 2021年12月16日,北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任邹月娴在中国计算机大会(CNCC 2021)“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《视
AI科技评论
2022/03/03
7270
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
最近,OpenAI官宣了一个基于Transformer的语言模型--DALL-E,使用了GPT-3的120亿参数版本。取名DALL-E,是为了向艺术家萨尔瓦多-达利(Salvador Dali )和皮克斯的机器人WALL-E致敬。
新智元
2021/01/11
1.4K0
多模态图像版「GPT-3」来了!OpenAI推出DALL-E模型,一句话即可生成对应图像
使用PyTorch进行小样本学习的图像分类
近年来,基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集,包含1000种不同的对象分类,现在一些模型已经超过了人类水平上。但是这些模型依赖于监督训练流程,标记训练数据的可用性对它们有重大影响,并且模型能够检测到的类别也仅限于它们接受训练的类。
deephub
2022/11/11
1.1K0
使用PyTorch进行小样本学习的图像分类
推荐阅读
相关推荐
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档