首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型

单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型

作者头像
机器之心
发布于 2022-03-04 06:21:16
发布于 2022-03-04 06:21:16
1.2K0
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Yi Tay等

机器之心编译

编辑:陈萍

谷歌提出基于 Transformer 的可微文本检索索引,明显优于双编码器模型等强大基线,并且还具有强大的泛化能力,在零样本设置中优于 BM25 基线。

信息检索 (Information Retrieval, IR) 从互联网诞生之日起,便有着不可撼动的地位。如何从海量数据中找到用户需要的信息是当前研究的热点。目前比较流行的 IR 方法是先检索后排序(retrieve-then-rank)策略。在检索算法中,比较常用的是基于反向索引或最近邻搜索,其中基于对比学习的双编码器 (dual encoders,DE) 是目前性能最优的模型。

近日,谷歌研究院在论文《Transformer Memory as a Differentiable Search Index》中提出了一种替代架构,研究者采用序列到序列 (seq2seq) 学习系统。该研究证明使用单个 Transformer 即可完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。

该研究引入了可微搜索索引(Differentiable Search Index,DSI),这是一种学习文本到文本新范式。DSI 模型将字符串查询直接映射到相关文档;换句话说,DSI 模型只使用自身参数直接回答查询,极大地简化了整个检索过程。

此外,本文还研究了如何表示文档及其标识符的变化、训练过程的变化以及模型和语料库大小之间的相互作用。实验表明,在适当的设计选择下,DSI 明显优于双编码器模型等强大基线,并且 DSI 还具有强大的泛化能力,在零样本设置中优于 BM25 基线

论文链接:https://arxiv.org/pdf/2202.06991.pdf

DSI 体系架构与 DE 比较:

论文一作、谷歌高级研究员 Yi Tay 表示:在这个新范式中,检索的所有内容都映射到易于理解的 ML 任务上。索引是模型训练的一种特殊情况,不再依赖外部不可微的 MIPS 操作进行检索。这使得统一模型更容易。

可微搜索索引

DSI 背后的核心思想是在单个神经模型中完全参数化传统的多阶段先检索后排序 pipeline。为此,DSI 模型必须支持两种基本操作模式:

  • 索引:DSI 模型应该学会将每个文档内容 d_j 与其对应的 docid j ( 文档标识符 :document identifiers,docid)相关联。本文采用一种简单的序列到序列方法,将文档 token 作为输入并生成标识符作为输出;
  • 检索:给定输入查询,DSI 模型应返回候选 docid 排序列表。本文是通过自回归生成实现的。

在这两个操作之后,DSI 模型可以用来索引文档语料库,并对可用的带标记数据集(查询和标记文档)进行微调,然后用于检索相关文档 —— 所有这些都在单个、统一的模型中完成。与先检索后排序方法相反,DSI 模型允许简单的端到端训练,并且可以很容易地用作更大、更复杂的神经模型的可微组件

双编码器 (DE) 的概述,它有两个独立的步骤,编码和检索。

索引策略

Inputs2Target:研究者将其构建为 doc_tokens → docid 的 seq2seq 任务,此方式能够以直接输入到目标的方式将 docid 绑定到文档 token。

Targets2Inputs:从标识符生成文档 token,即 docid → doc token。直观来讲,这相当于训练一个以 docid 为条件的自回归语言模型。

双向:其在同一个联合训练设置中训练 Inputs2Targets 和 targets2input。附加一个 prefix token 以允许模型知道任务正在哪个方向执行。

表示 Docids 用于检索

基于 seq2seq 的 DSI 模型中的检索是通过解码给定输入查询 docid 来完成的。如何有效地解码很大程度上取决于模型中 docid 的表示方式。在本节中,研究者探讨了表示 docid 的多种可能方式以及如何处理解码。

非结构化原子标识符(Atomic Identifiers):表示文档最简单的方法是为每个文档分配一个任意的(并且可能是随机的)唯一整数标识符,该研究将这些标识符称为非结构化原子标识符。研究者要想使用这些标识符,一个明显的解码方式是学习标识符上的概率分布。在这种情况下,模型被训练为每个唯一的 docid (|Ndocuments|) 发出一个 logit。为了适应这种情况,该研究将标准语言模型的输出词汇表扩展如下:

简单的结构化字符串标识符:该研究还考虑了另一种方法,将非结构化标识符 (即任意唯一整数) 视为可标记的(tokenizable)字符串,将其称为简单的结构化标识符。在此标识符下,检索是通过依次解码一个 docid 字符串来完成的。解码时,使用 beam search 来获得最佳 docid。但是,使用这种策略不容易获得 top-k 排名。不过,研究者可以彻底梳理整个 docid 空间,并获得给定查询的每个 docid 的可能性。 

语义结构化标识符:其目标是自动创建满足以下属性的标识符:(1) docid 应该捕获一些语义信息,(2) docid 的结构应该是在每一个解码 step 之后有效地减少搜索空间。给定一个需要索引的语料库,所有文档都聚集成 10 个簇。每个文档分配有一个标识符,其簇的编号从 0 到 9。下表为这个进程的伪代码:

实验结果

所有 DSI 模型均使用标准预训练 T5 模型配置进行初始化。配置名称和对应的模型参数数量为:Base (0.2B)、Large (0.8B)、XL (3B) 和 XXL (11B)。该研究用实验验证了上述各种策略的效果。

下表 3 给出了经过微调的 NQ10K、NQ100K 和 NQ320K 的检索结果,表 4 给出了零样本检索结果。对于零样本检索,模型仅针对索引任务而不是检索任务进行训练,因此模型看不到标记查询 → docid 数据点。

下图 4 给出了 NQ320K 上的结果。总的来说,研究者发现直接索引方法效果最好,并且由于 docid 反复暴露于不同的 token,因此很难训练倒排索引( inverted index)方法。他们还发现,较短的文档长度似乎在性能大幅下降超过 64 个 token 时效果很好,这表明当存在大量文档 token 时,可能更难优化或有效记忆。最后,研究者还发现对文档 token 应用集合处理或停用词预处理没有额外的优势。

下图 3 绘制了三种方法的缩放表现(以对数尺度计),它们分别是 DE、具有 naive ID 的 DSI 和具有语义 ID 的 DSI。其中,DSI (naive) 可以从 base 到 XXL 的尺度变化中获益,并且似乎仍有改进的空间。同时,DSI (语义) 在开始时与 DE base 具有同等竞争力,但会随尺度增加表现得更好。DE 模型在较小的参数化时基本处于稳定状态。

下图 5 展示了修改索引比例对检索样本的影响。研究者发现,索引和检索任务之间的相互作用会显著影响优化过程。r 值设置得过高或过低一般都会导致性能不佳。他们发现,索引比例为 32 时通常表现良好。

时在中春,阳和方起——机器之心AI科技年会

机器之心AI科技年会将于3月23日在北京举办,在分享交流对人工智能的判断与思考外,更重要的是与读者、合作伙伴和好友们真实的见一面。

这是一次注重交流与见面的聚会,所以叫「年会」,没叫「大会」。

在这场年会上,有三个方向我们希望和大家分享:人工智能、AI for Science和智能汽车。

  • 人工智能论坛关注高性能计算联邦学习、系统机器学习强化学习、CV与NLP发展、RISC-V等。
  • AI x Science论坛关注AI与蛋白质、生物计算、数学、物理、化学、新材料和神经科学等领域的交叉研究进展。
  • 首席智行官大会关注智能汽车、汽车机器人、无人驾驶商业化、车规级芯片和无人物流等。

当然,按以往的惯例,我们还将邀请行业内最具代表性与专业的权威嘉宾带来他们的思考与判断。

欢迎大家点击「阅读原文」报名活动,「中春」见。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了
机器之心 & ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天 本周论文包括尤洋团队FastFold上线,训练时间从11天压缩至67小时;微软亚洲研究院直接把 Transformer 深度提升到 1000 层等研究。 目录 FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours  Transformer Memory as a Differentiable Search Index  DeepNet:
机器之心
2022/03/09
6200
谷歌出品 | TIGER:生成式检索推荐系统
这篇文章提出了一种新的生成式检索推荐系统的范式TIGER。当前基于大规模检索模型的现代推荐系统,一般由两个阶段的流程实现:训练双编码器模型得到在同一空间中query和候选item的embedding,然后通过ANN搜索来检索出给定query的embedding的最优候选集。相比于当前主流的推荐系统,本文提出了一种新的单阶段范式:一种生成式检索模型。
Houye
2023/12/28
2.9K0
谷歌出品 | TIGER:生成式检索推荐系统
这篇论文,透露谷歌团队构想的“未来搜索”
作者 | 青苹果 来源 | 数据实战派 头图 | 付费下载于 IC Photo 传统的信息检索(IR, Information Retrieval)系统,并不直接回应信息需求,而仅提供对内容的参考。排序(Ranking)是该范式的关键组成部分。 这样的检索系统为用户提供了潜在答案的选择,实际上也给用户带来了相当严重的认知负担。开发问答(QA, Question Answering)系统的动机之一,正是在于希望返回的是答案而非结果的排序列表。 现在已经有很多关于 QA 系统的研究,然而现实中的大规模成功案例
AI科技大本营
2023/05/08
2910
这篇论文,透露谷歌团队构想的“未来搜索”
算法集锦(13)|自然语言处理| Python代码的语义搜索引擎创建
现代搜索引擎的力量非常强大,可以让你瞬间从互联网中获取想要的知识。但是,现有技术也存在着无法忽视的局限性,比如搜索非文字内容或者内容难以用“关键词”描述时,都难以达到预期的搜索效果。更进一步,现有搜索技术难以让用户实现“语义”搜索,即通过文字内容的意义来检索相关内容。
用户7623498
2020/08/04
1.6K0
算法集锦(13)|自然语言处理| Python代码的语义搜索引擎创建
【源头活水】mBART:多语言翻译预训练模型
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/04/30
4.7K0
【源头活水】mBART:多语言翻译预训练模型
参数量1/50,Meta发布110亿参数模型,击败谷歌PaLM
机器之心报道 机器之心编辑部 Yann LeCun 表示:Atlas 是一个不太大的语言模型,具有 110 亿参数,在问答和事实核查方面击败了「大家伙」。 我们可以将大型语言模型(LLMs)理解为小样本学习者,其能够通过很少的例子就能学习新任务,甚至仅通过简单的说明就能学习,其中对模型参数量和训练数据的大小进行扩展是模型拥有泛化能力的关键。LLMs 的这种提升归功于更强大算力和存储能力。直观上,推理能力的提高会带来更好的泛化,从而减少样本的学习,然而目前还不清楚有效的小样本学习在多大程度上需要大量的模型参数
机器之心
2022/08/25
4780
参数量1/50,Meta发布110亿参数模型,击败谷歌PaLM
从零开始了解语义搜索中的嵌入模型
正如大多数矢量搜索供应商所宣传的那样,语义搜索系统的基本设计有两个简单的(这很讽刺) 步骤:
点火三周
2023/08/25
4.1K0
从零开始了解语义搜索中的嵌入模型
涵盖500多项研究、50多个模型,代码大模型综述来了
随着 BERT 和 GPT 等预训练 Transformer 的出现,语言建模近些年来取得了显著进步。随着大型语言模型(LLM)的规模扩展至数以千万计的参数数量,LLM 开始展现出通用人工智能的迹象,它们的应用也已经不局限于文本处理。Codex 首次展现出了 LLM 在代码处理方面的出色能力,之后更是出现了 GitHub Copilot 这样的商业产品以及 StarCoder 和 Code LLaMA 等开源代码模型。
机器之心
2023/11/22
1.1K0
涵盖500多项研究、50多个模型,代码大模型综述来了
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。
新智元
2024/02/26
3110
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
搜索代码进行重用、调用,或者借此查看别人处理问题的方式,是软件开发者日常工作中最常见的任务之一。然而,代码搜索引擎的效果通常不太好,和常规的 web 搜索引擎不同,它无法充分理解你的需求。GitHub 团队尝试使用现代机器学习技术改善代码搜索结果,但很快意识到一个问题:他们无法衡量改善效果。自然语言处理领域有 GLUE 基准,而代码搜索评估领域并没有适合的标准数据集。
IT大咖说
2019/10/09
1.2K0
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
搜索代码进行重用、调用,或者借此查看别人处理问题的方式,是软件开发者日常工作中最常见的任务之一。然而,代码搜索引擎的效果通常不太好,和常规的 web 搜索引擎不同,它无法充分理解你的需求。GitHub 团队尝试使用现代机器学习技术改善代码搜索结果,但很快意识到一个问题:他们无法衡量改善效果。自然语言处理领域有 GLUE 基准,而代码搜索评估领域并没有适合的标准数据集。
机器之心
2019/09/29
8310
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
实例+代码,你还怕不会构建深度学习的代码搜索库吗?
本文展示了一个端到端的实例,说明如何构建一个可以语义化搜索对象的系统。项目作者是 Hamel Husain (https://www.linkedin.com/in/hamelhusain/) 和 Ho-Hsiang Wu 。
AI研习社
2018/08/16
1K0
实例+代码,你还怕不会构建深度学习的代码搜索库吗?
拿到参考资料的预训练模型,太可怕了!
NewBeeNLP公众号原创出品 公众号专栏作者 @Maple小七 北京邮电大学·模式识别与智能系统 今天和大家分享 Facebook 发表于 NeurIPS 2020 的工作,既然『
NewBeeNLP
2021/01/08
2K0
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 18 个在机器翻译任务上曾取得 SOTA 的经典模型。 第 1 期:RNNsearch、Multi-task、attention-model
机器之心
2023/03/29
1.1K0
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
解决训练难题,1000层的Transformer来了,训练代码很快公开
机器之心报道 机器之心编辑部 1000 层的 Transformer,深得吓人。 昨日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议,作者来自微软亚洲研究院。 该研究直接把 Transformer 深度提升到 1000 层! 下面让我们看下这篇研究说了什么。 近年来,大规模 Transformer 模型出现了这样一种趋势:随着模型参数从数百万增加至数十亿甚至数万亿,性能相应地实现了显著提升。大规模模型在一系列任务上都取得了 SOT
机器之心
2022/03/04
8680
自然语言处理中的预训练模型(上)
本文是最近比较火的一篇关于预训练模型的综述 「Pre-trained Models for Natural Language Processing: A Survey」 的阅读笔记。由于篇幅较长,所以分成两篇发送。
口仆
2020/08/14
1.9K0
【论文解读】用于代码处理的语言模型综述
在这项工作中,论文系统地回顾了在代码处理方面的最新进展,包括50个+模型,30个+评估任务和500个相关工作。论文将代码处理模型分解为由GPT家族表示的通用语言模型和专门预训练的代码模型,通常具有定制的目标。论文讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和rnn到预训练的transformer和LLM的历史转变,这与NLP所采取的过程完全相同。还讨论了特定于代码的特性,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在的未来方向。
合合技术团队
2024/01/18
5780
【论文解读】用于代码处理的语言模型综述
ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT
自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 27 篇论文(含 9 篇 findings)。
机器之心
2021/08/06
8520
百分点认知智能实验室出品:机器翻译是如何炼成的(下)
在“机器翻译是如何炼成的(上)”的文章中,我们回顾了机器翻译的发展史。在本篇文章中,我们将分享机器翻译系统的理论算法和技术实践,讲解神经机器翻译具体是如何炼成的。读完本文,您将了解:
数据猿
2020/03/05
6520
Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
虽然大型语言模型在NLP领域展现出的强大性能十分惊人,但其带来的负面代价也很严重,比如训练过于昂贵,难以更新等。,而且很难处理长尾知识。
新智元
2023/01/09
1.2K0
Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
推荐阅读
7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了
6200
谷歌出品 | TIGER:生成式检索推荐系统
2.9K0
这篇论文,透露谷歌团队构想的“未来搜索”
2910
算法集锦(13)|自然语言处理| Python代码的语义搜索引擎创建
1.6K0
【源头活水】mBART:多语言翻译预训练模型
4.7K0
参数量1/50,Meta发布110亿参数模型,击败谷歌PaLM
4780
从零开始了解语义搜索中的嵌入模型
4.1K0
涵盖500多项研究、50多个模型,代码大模型综述来了
1.1K0
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
3110
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
1.2K0
如何提升代码搜索效果?GitHub团队打造代码搜索领域的GLUE数据集
8310
实例+代码,你还怕不会构建深度学习的代码搜索库吗?
1K0
拿到参考资料的预训练模型,太可怕了!
2K0
FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)
1.1K0
解决训练难题,1000层的Transformer来了,训练代码很快公开
8680
自然语言处理中的预训练模型(上)
1.9K0
【论文解读】用于代码处理的语言模型综述
5780
ACL 2021 | 腾讯AI Lab、港中文杰出论文:用单语记忆实现高性能NMT
8520
百分点认知智能实验室出品:机器翻译是如何炼成的(下)
6520
Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
1.2K0
相关推荐
7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档