首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLMOps实战(四):大模型开发 RAG 工作流中 Embedding 模型选型全解析

LLMOps实战(四):大模型开发 RAG 工作流中 Embedding 模型选型全解析

原创
作者头像
范赟鹏
发布于 2025-03-29 14:20:56
发布于 2025-03-29 14:20:56
1.9K1
举报
文章被收录于专栏:ai应用ai应用

一、RAG 工作流概述

在大模型开发中,检索增强生成(RAG)工作流是一种将外部知识检索与语言模型生成相结合的有效方法。它能有效避免大模型产生幻觉问题,提高回答的准确性和可靠性。而 Embedding 模型在 RAG 工作流中起着关键作用,它负责将文本、结构化数据等转换为向量表示,以便进行高效的相似度检索。

二、embedding 模型核心作用

工作原理:输入文本→分词→模型编码(如BERT的CLS Token或均值池化)→输出向量。

  • 语义编码:将文本、表格、图像等数据转化为高维向量,捕捉语义信息。
  • 相似度计算:通过余弦相似度或欧氏距离衡量向量间的关联性,支撑检索任务。
  • 信息降维:将复杂数据压缩为低维稠密向量,便于高效存储与计算。

三、不同数据类型场景下 Embedding 模型的选型及作用

(一)结构化数据场景(如表格、数值)

1. 场景特点

结构化数据通常以表格、数据库记录等形式存在,具有明确的字段和关系。例如,电商平台的商品信息表,包含商品 ID、名称、价格、库存等字段。在 RAG 工作流中,需要根据用户的查询条件,从结构化数据中检索相关信息。

  • 推荐模型
    • BGE-M3:支持多模态检索,稀疏向量增强表格数值匹配,首条命中率可达83%。
    • SQLNet:是一种专门用于处理结构化数据的 Embedding 模型。它将 SQL 查询语句和表格结构(列名、行值)映射到联合向量空间。通过对 SQL 语句的语义理解,能够将查询条件转换为向量表示,从而在向量空间中进行高效的检索。
    • Graph Neural Networks(GNNs):通过节点和边的信息传递机制,学习节点的嵌入表示。例如,在一个知识图谱中,节点表示实体(如人物、事件等),边表示实体之间的关系(如父子关系、因果关系等)。GNNs 会根据节点的邻居信息和边的权重,不断更新节点的嵌入向量,从而捕捉实体之间的复杂关系。

对比维度

SQLNet

GNNs(图神经网络)

BGE-M3

工作原理

将 SQL 查询语句和表格结构映射到联合向量空间,基于语义理解将查询条件转为向量进行检索

把结构化数据看作图结构,通过节点和边的信息传递机制学习节点嵌入表示

基于预训练语言模型,先将结构化数据转为文本格式,再学习文本语义信息生成向量表示

适用场景

常规数据库查询场景,需根据 SQL 语句精确查询的情况,如企业资源管理系统中的员工、订单信息查询,适合表格型或数据库查询

处理具有复杂关系的结构化数据,如知识图谱、社交网络、分子结构等场景,适合知识图谱查询

结构化数据与文本数据混合场景,或需进行语义匹配的结构化数据检索,如电商搜索,适合结构化+文本数据查询

优势

查询准确性高,能精确理解 SQL 查询语义并准确返回结果效率高,针对 SQL 查询优化,处理大量结构化数据查询时检索效率高

强大的关系建模能力,可捕捉实体间复杂关系,挖掘深层次信息具备多跳推理能力,能在知识图谱中推导未知关系

语义理解能力强,基于预训练语言模型,语义匹配和检索表现出色灵活性高,可处理多种类型数据,适用场景广泛

性能和资源需求

计算资源需求相对较低,部署难度适中,适合资源有限环境

计算复杂度高,对计算资源需求大,训练和推理时间长,部署难度高

推理需一定计算资源,某些场景下比 GNNs 高效,可借助模型压缩和量化技术减少资源消耗

2. 适用场景
  • 精确查询(如 SQL 条件检索):SQLNet,适合企业数据查询,如 CRM 系统,直接解析 SQL 语义,检索效率高,无需数据格式转换。
  • 关系推理/多跳分析(如推荐系统、药物分子分析):GNNs,适合社交网络分析,可以捕捉多跳关系(如 A→B→C 的间接关联),比如“患者症状 → 可能疾病 → 推荐药物”。
  • 语义匹配/模糊检索(如跨模态搜索、客服问答):BGE-M3,适合商品名称文本 + 价格、品牌等结构化字段等多维语义检索,可以将文本和结构化数据统一编码为语义向量,支持“高性价比手机”等模糊查询。还可适用于做 QA 查询,通过文本化处理(如“问题分类:售后;问题内容:物流查询”)生成联合向量,提升匹配精度,可用在智能客服场景中。
3. 性能与资源对比

模型

推理速度

内存占用

部署难度

SQLNet

GNNs

BGE - M3

4. 选型总结
  • 明确数据类型:表格 → SQLNet/BGE - M3;图 → GNNs。
  • 分析任务需求:精确查询 → SQLNet;关系推理 → GNNs;语义匹配 → BGE - M3。
  • 评估资源限制:低资源 → SQLNet;高资源 → GNNs/BGE - M3。

(二)文本型数据场景

1. 场景特点

文本型数据是最常见的数据类型,包括文档、文章、新闻、对话等。在 RAG 工作流中,需要根据用户的文本查询,从大量的文本数据中检索相关的文档。

  • 推荐模型:
    • text-embedding-3-small:高效且低成本,参数数量较少,支持多语言和动态维度调整,适合在资源有限的环境中使用。
    • text-embedding-3-large:规模较大,具有更多的参数,性能最强,支持更大维度(3072维),适合高精度任务,它能够学习到更复杂的语言模式和语义信息,因此在处理复杂的文本任务时可能表现更好。
    • Nomic Embed:完全开源可复现,长上下文(8192 token)优化,参数量小(137M),能够在处理大规模文本数据时提供高效的嵌入计算。它可以快速生成文本的向量表示,并且在搜索和检索任务中具有较低的延迟,Nomic Embed 与 Nomic AI 的向量数据库(如 Atlas)紧密集成,方便用户将生成的嵌入向量存储和查询,实现高效的语义搜索。
    • BGE-M3:这里再一次提到 M3,它的综合性能很强,中文场景最优,支持混合检索(稠密+稀疏向量),长文档处理突出,它不仅可以处理文本数据,还可以处理图像等其他模态的数据。该模型基于大规模的预训练,旨在学习不同模态数据之间的语义关联,以支持跨模态的检索和分析任务。

模型

核心优势

长文本处理

MTEB 准确率

开源性

资源需求

text-embedding-3-small

高效且低成本,支持多语言和动态维度调整

有限

为明确披露

闭源(需付费 api)

轻量级,适合 CPU/GPU 低显存环境

text-embedding-3-large

性能最强,支持更大维度(3072维),适合高精度任务

有限

91.2%

闭源(需付费 api)

需较高显存(如 4.8GB),适合 GPU 加速

Nomic Embed

完全开源可复现,长上下文(8192 token)优化,参数量小(137M)

优(8192 序列长度)

超越 ada-002

开源(MIT 协议)

模型大小约 274MB,CPU 即可运行,资源友好

BGE-M3

中文场景最优,支持混合检索(稠密+稀疏向量),长文档处理突出

较好

多语言任务最优

开源(MIT 协议)

需中等显存(如 4GB),推荐 GPU 部署以提升速度

2. 适用场景
  • 优先选择 BGE-M3:支持纯文本数据(文档、对话),混合型数据(文本+结构化属性)若需多语言支持且预算有限,BGE-M3 是开源方案中的首选,同时 BGE-M3 支持跨模态检索(文本+图像/表格),支持模糊匹配。
  • 长文本场景选 Nomic Embed:处理超长文档(如合同、书籍)时,Nomic Embed 的长序列能力更优,同时具备领域微调能力,预训练于法律语料库,可以精准捕捉“违约责任”“不可抗力”等专业语义
  • 依赖 OpenAI 生态选 text-embedding-3:若已深度集成 OpenAI 工具链,可结合其动态维度特性优化成本,large 可以提供高精度文本匹配,适合学术检索,有计算资源直接上 large,适合高精匹配。
3. 性能与资源对比

模型

推理速度

内存占用

部署难度

典型应用场景

text-embedding-3-small

极快

极低

移动端搜索、边缘设备

text-embedding-3-large

学术检索、复杂语义分析

Nomic Embed

法律、金融领域文本处理

BGE-M3

混合数据检索、多语言任务

4. 选型总结:
  1. 明确数据与任务:纯文本 → text-embedding系列/BGE-M3;领域文本 → Nomic Embed。
  2. 评估资源与需求:低资源 → small;高精度 → large/BGE-M3;领域需求 → Nomic。
  3. 验证扩展性:多语言/混合数据 → BGE-M3;动态领域 → Nomic Embed。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
没有事务?你认真的?
没有事务?你认真的?
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
寻找最佳的RAG开源嵌入模型
寻找适合您 RAG 应用的最佳开源嵌入模型?我们分享一个比较工作流程,以便您可以停止支付 OpenAI 的费用。
云云众生s
2024/12/24
1.7K0
寻找最佳的RAG开源嵌入模型
掌握这5个要点,选对Embedding模型助力RAG系统
你是否曾为智能问答系统的表现不佳而困惑? 无论你如何优化模型架构、调整参数,甚至引入最新的生成式AI技术,系统的表现依然不尽如人意。问题的根源可能并不在于你看到的表面,而在于一个被忽视的关键环节——Embedding模型。
三桥君
2025/07/15
770
掌握这5个要点,选对Embedding模型助力RAG系统
玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。​那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢?​
致Great
2025/03/19
2K0
玩转RAG应用:如何选对Embedding模型?
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
deephub
2024/03/01
3.2K0
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
【知识库特性增量】 DeepSeek-R1 模板支持 bge-m3 embedding model
Embedding 模型的核心价值在于将非结构化文本转化为数值向量,解决语义理解与计算效率问题:
Cloud Studio
2025/02/20
1.6K0
【知识库特性增量】 DeepSeek-R1 模板支持 bge-m3 embedding model
RAG检索策略深度解析:从BM25到Embedding、Reranker,如何为LLM选对“导航系统”?
大家好!今天我们来聊聊一个热门技术——RAG(检索增强生成)中至关重要的“检索”环节。如果你正在探索如何让你的大型语言模型(LLM)更智能、回答更靠谱,那这篇文章你可千万别错过。
LeonAlgo
2025/07/01
5810
RAG检索策略深度解析:从BM25到Embedding、Reranker,如何为LLM选对“导航系统”?
基于 Cherry Studio+Ollama+DeepSeek 构建私有知识库
上期教程我们已实现在本地部署大模型,但尚未构建知识库系统。本期将带领读者完成基于 Cherony Studio+Ollama+DeepSeek 的私有知识库搭建,核心将采用 BGE-M3 向量模型实现知识嵌入。
徐建国
2025/02/07
8.9K1
基于 Cherry Studio+Ollama+DeepSeek 构建私有知识库
BGE M3-Embedding 模型介绍
BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding支持超过100种工作语言,支持8192长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。
JadePeng
2024/04/19
11.8K0
BGE M3-Embedding 模型介绍
全面提升 RAG 质量!Zilliz 携手智源集成 Sparse Embedding、Reranker 等多种 BGE 开源模型
近期,Zilliz 与智源研究院达成合作,将多种 BGE(BAAI General Embedding) 开源模型与开源向量数据库 Milvus 集成。得益于 Milvus 2.4 最新推出的 Sparse Vector(稀疏向量)和 Multi-vector(多向量)支持,开发者获得了多种选择,不仅有业界广泛采用的 Dense Embedding(稠密向量模型),还能使用 BGE 最新推出的 Sparse Embedding(稀疏检索模型)、Reranker(重排序) 模型。开发者可以轻松组合这些工具构建更加强大的召回方案,覆盖语义检索、全文检索和精排的能力。
Zilliz RDS
2024/04/30
1.3K0
全面提升 RAG 质量!Zilliz 携手智源集成 Sparse Embedding、Reranker 等多种 BGE 开源模型
基于 DeepSeek R1 搭建自己的大模型知识库
基于本地环境搭建自己的大模型知识库,这里选取的是 DeepSeek R1 大模型。
王小明_HIT
2025/04/07
4920
基于 DeepSeek R1 搭建自己的大模型知识库
停止支付OpenAI税:新兴的开源AI技术栈
如果我们能够回到过去,告诉软件工程师他们的应用程序将由神秘的AI驱动,我们对其内部运作一无所知,并且他们为了体验的便利性而将最敏感的数据交给影子第三方,他们可能会难以置信地摇头。但这就是我们现在所处的境地。
云云众生s
2024/12/22
1780
停止支付OpenAI税:新兴的开源AI技术栈
重磅!Zilliz 与智源研究院联合推出自动化多样性信息检索评测基准 AIR-Bench
Github:https://github.com/AIR-Bench/AIR-Bench
Zilliz RDS
2024/05/31
2340
重磅!Zilliz 与智源研究院联合推出自动化多样性信息检索评测基准 AIR-Bench
怎么短平快地把RAG做好:以厦门银行RAG比赛为例讲解
前段时间笔者参加了厦门银行的第五届数创金融杯大模型应用挑战赛,其中初赛是金融监管制度智能问答,属于经典RAG问答,具体比赛任务如下:
致Great
2025/07/12
980
怎么短平快地把RAG做好:以厦门银行RAG比赛为例讲解
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/06
1.3K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/07
1.8K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
RAG技术全解析:打造下一代智能问答系统
大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。RAG目前是基于LLM系统中最受欢迎的架构,有许多产品基于RAG构建,使RAG成为推动聊天机器人发展和增强LLM在现实世界应用适用性的关键技术。
用户9177072
2024/05/08
6880
解读 RAG 中的 embedding model
在当前人工智能潮流中,RAG 技术备受关注,诸如 RAGFlow、Qanything、Dify、FastGPT 等 RAG 引擎逐渐受到广泛关注。在这些引擎的背后,嵌入模型扮演着关键角色,对于整个系统起着至关重要的作用。让我们一同探究这个神秘的嵌入模型!
福大大架构师每日一题
2025/03/13
2160
解读 RAG 中的 embedding model
LLMOps实战(一):DeepSeek+RAG 协同构建企业知识库全流程指南
首先解释下什么是 LLMOps,Large Language Model Operations是专注于大语言模型全生命周期管理的工程实践,涵盖从模型开发、部署、监控到持续优化的系统性流程。其核心目标是提升LLM应用的可靠性、效率与可控性,解决大模型在实际落地中的技术与管理挑战。
范赟鹏
2025/03/24
4.7K0
如何高效提升大模型的RAG效果?多种实用策略一次掌握
持续提升RAG(检索增强生成,Retrieval-Augmented Generation)的效果是当前许多企业应用大模型时非常关注的一个关键问题。虽然RAG看起来简单,但真正要做到效果持续提升,还真不是一件容易的事。咱们今天就用更轻松的语言,结合实际案例,聊聊如何通过多种策略持续增强RAG能力,帮助你在实际落地项目中游刃有余。
fanstuck
2025/03/13
4662
如何高效提升大模型的RAG效果?多种实用策略一次掌握
【RAG】001.1-RAG相关核心概念
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与生成模型的混合架构,旨在提升生成的准确性和可信度。其核心概念可归纳为以下六个方面:
訾博ZiBo
2025/03/26
4260
推荐阅读
相关推荐
寻找最佳的RAG开源嵌入模型
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档