Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

作者头像
汀丶人工智能
发布于 2024-07-09 00:37:34
发布于 2024-07-09 00:37:34
6600
举报
文章被收录于专栏:NLP/KGNLP/KG

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源

BGE 出色的语义表征能力源于两方面要素:1)针对表征的预训练,2)大规模文本对训练。

BGE 在悟道 、Pile 两个大规模语料集上采取了针对表征的预训练算法 RetroMAE :将低掩码率的输入编码为语义向量(Embed),再将高掩码率的输入与语义向量拼接以重建原始输入。这样一来,BGE 得以利用无标签语料实现语言模型基座对语义表征任务的适配。

BGE 针对中文、英文分别构建了多达120M、232M的样本对数据,从而帮助模型掌握实际场景中各种不同的语义匹配任务,并借助负采样扩增 [1] 与难负样例挖掘 [2] 进一步提升对比学习的难度,实现了多达65K的负样本规模,增强了语义向量的判别能力。

另外,BGE 借鉴 Instruction Tuning [3] 的思想,采取了非对称的指令添加方式,在问题端添加场景描述&

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。
新智元
2023/09/09
6.1K1
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新
伴随着大模型开发和应用的火热发展,作为大模型核心基础组件的 Embedding 重要性愈发凸显。智源于一月前发布的开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。当前,BGE 快速迭代推出 1.5 版本并公布多项更新,其中,BGE 首次开源 3 亿条大规模训练数据,帮助社区训练同类模型,推动该领域技术发展。
机器之心
2023/09/19
1.6K0
智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索是搜索、推荐、广告等领域的关键性技术;面向稠密检索的预训练是业界高度重视的研究课题。近期,华为泊松实验室联合北京邮电大学、华为昇思 MindSpore 团队提出“基于掩码自编码器的检索预训练语言模型 RetroMAE”,大幅刷新稠密检索领域的多项重要基准。而其预训练任务的简洁性与有效性,也为下一步技术的发展开辟了全新的思路。该工作已录用于自然语言处理领域顶级学术会议 EMNLP 2022。基于昇思开源学习框架的模型与源代码已向社区开放。
机器之心
2022/12/16
7570
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
Sparse稀疏检索介绍与实践
在处理大规模文本数据时,我们经常会遇到一些挑战,比如如何有效地表示和检索文档,当前主要有两个主要方法,传统的文本BM25检索,以及将文档映射到向量空间的向量检索。
JadePeng
2024/04/16
6900
Sparse稀疏检索介绍与实践
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
9月15日,北京人工智能产业峰会暨中关村科学城科创大赛颁奖典礼现场,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
新智元
2023/09/19
5851
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
BGE M3-Embedding 模型介绍
BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding支持超过100种工作语言,支持8192长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。
JadePeng
2024/04/19
10K0
BGE M3-Embedding 模型介绍
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。
新智元
2025/03/06
1100
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
LLMOps实战(四):大模型开发 RAG 工作流中 Embedding 模型选型全解析
在大模型开发中,检索增强生成(RAG)工作流是一种将外部知识检索与语言模型生成相结合的有效方法。它能有效避免大模型产生幻觉问题,提高回答的准确性和可靠性。而 Embedding 模型在 RAG 工作流中起着关键作用,它负责将文本、结构化数据等转换为向量表示,以便进行高效的相似度检索。
范赟鹏
2025/03/29
2910
玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。​那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢?​
致Great
2025/03/19
8110
玩转RAG应用:如何选对Embedding模型?
开源Embedding模型,有效提升中文语义理解与召回
此前,我们已经简单介绍了TextIn团队开发的开源acge_text_embedding模型及其下载和使用方法。本篇将展开讨论Embedding模型中使用的技术框架。
合合技术团队
2024/10/30
2410
开源Embedding模型,有效提升中文语义理解与召回
Rerank进一步提升RAG效果
目前大模型应用中,RAG(Retrieval Augmented Generation,检索增强生成)是一种在对话(QA)场景下最主要的应用形式,它主要解决大模型的知识存储和更新问题。
Steve Wang
2024/05/16
1.8K0
Rerank进一步提升RAG效果
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/07
1.6K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/06
1.1K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
揭秘「 B 站最火的 RAG 应用」是如何炼成的
近日,bilibili 知名科技 UP 主“Ele 实验室”发布了一个视频,标题为“当我开发出史料检索 RAG 应用,正史怪又该如何应对?” 。
Zilliz RDS
2024/03/02
5900
揭秘「 B 站最火的 RAG 应用」是如何炼成的
重磅!Zilliz 与智源研究院联合推出自动化多样性信息检索评测基准 AIR-Bench
Github:https://github.com/AIR-Bench/AIR-Bench
Zilliz RDS
2024/05/31
1900
重磅!Zilliz 与智源研究院联合推出自动化多样性信息检索评测基准 AIR-Bench
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型;在OpenCompass的基准表现中,客观评测超过GPT-4 Turbo,主观评测已超过GPT-4o位列第一。
新智元
2024/06/17
5770
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
机器之心专栏 QQ 浏览器搜索技术中心、腾讯 PCG ARC Lab 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。此外,QQ 浏览器还能根据用户正在观看的视频内容,推荐用户可能感兴趣的搜索词,推词的挖掘、排序同样需要模型
机器之心
2023/03/29
1.1K0
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
大模型RAG向量检索原理深度解析
常规的知识库检索通常使用的是关键字与词条匹配,随着AGI的爆发,越来越多的知识库检索开始使用向量检索技术,特别是在RAG领域,增强型的生成式问答检索正在大面积应用和推广。
大脚攀爬
2024/04/18
1.8K0
大模型RAG向量检索原理深度解析
万字综述!从21篇最新论文看多模态预训练模型研究进展
在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。
NewBeeNLP
2021/11/19
4.7K0
万字综述!从21篇最新论文看多模态预训练模型研究进展
NLP 语义匹配:经典前沿方案整理
这篇跟大家讨论相关的技术,主要包括BERT-avg、BERT-Whitening、SBERT、SimCES四个。
NewBeeNLP
2021/11/12
1.3K0
NLP 语义匹配:经典前沿方案整理
推荐阅读
相关推荐
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档