Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >LLMOps实战(四):大模型开发 RAG 工作流中 Embedding 模型选型全解析

LLMOps实战(四):大模型开发 RAG 工作流中 Embedding 模型选型全解析

原创
作者头像
范赟鹏
发布于 2025-03-29 14:20:56
发布于 2025-03-29 14:20:56
2910
举报
文章被收录于专栏:ai应用ai应用

一、RAG 工作流概述

在大模型开发中,检索增强生成(RAG)工作流是一种将外部知识检索与语言模型生成相结合的有效方法。它能有效避免大模型产生幻觉问题,提高回答的准确性和可靠性。而 Embedding 模型在 RAG 工作流中起着关键作用,它负责将文本、结构化数据等转换为向量表示,以便进行高效的相似度检索。

二、embedding 模型核心作用

工作原理:输入文本→分词→模型编码(如BERT的CLS Token或均值池化)→输出向量。

  • 语义编码:将文本、表格、图像等数据转化为高维向量,捕捉语义信息。
  • 相似度计算:通过余弦相似度或欧氏距离衡量向量间的关联性,支撑检索任务。
  • 信息降维:将复杂数据压缩为低维稠密向量,便于高效存储与计算。

三、不同数据类型场景下 Embedding 模型的选型及作用

(一)结构化数据场景(如表格、数值)

1. 场景特点

结构化数据通常以表格、数据库记录等形式存在,具有明确的字段和关系。例如,电商平台的商品信息表,包含商品 ID、名称、价格、库存等字段。在 RAG 工作流中,需要根据用户的查询条件,从结构化数据中检索相关信息。

  • 推荐模型
    • BGE-M3:支持多模态检索,稀疏向量增强表格数值匹配,首条命中率可达83%。
    • SQLNet:是一种专门用于处理结构化数据的 Embedding 模型。它将 SQL 查询语句和表格结构(列名、行值)映射到联合向量空间。通过对 SQL 语句的语义理解,能够将查询条件转换为向量表示,从而在向量空间中进行高效的检索。
    • Graph Neural Networks(GNNs):通过节点和边的信息传递机制,学习节点的嵌入表示。例如,在一个知识图谱中,节点表示实体(如人物、事件等),边表示实体之间的关系(如父子关系、因果关系等)。GNNs 会根据节点的邻居信息和边的权重,不断更新节点的嵌入向量,从而捕捉实体之间的复杂关系。

对比维度

SQLNet

GNNs(图神经网络)

BGE-M3

工作原理

将 SQL 查询语句和表格结构映射到联合向量空间,基于语义理解将查询条件转为向量进行检索

把结构化数据看作图结构,通过节点和边的信息传递机制学习节点嵌入表示

基于预训练语言模型,先将结构化数据转为文本格式,再学习文本语义信息生成向量表示

适用场景

常规数据库查询场景,需根据 SQL 语句精确查询的情况,如企业资源管理系统中的员工、订单信息查询,适合表格型或数据库查询

处理具有复杂关系的结构化数据,如知识图谱、社交网络、分子结构等场景,适合知识图谱查询

结构化数据与文本数据混合场景,或需进行语义匹配的结构化数据检索,如电商搜索,适合结构化+文本数据查询

优势

查询准确性高,能精确理解 SQL 查询语义并准确返回结果效率高,针对 SQL 查询优化,处理大量结构化数据查询时检索效率高

强大的关系建模能力,可捕捉实体间复杂关系,挖掘深层次信息具备多跳推理能力,能在知识图谱中推导未知关系

语义理解能力强,基于预训练语言模型,语义匹配和检索表现出色灵活性高,可处理多种类型数据,适用场景广泛

性能和资源需求

计算资源需求相对较低,部署难度适中,适合资源有限环境

计算复杂度高,对计算资源需求大,训练和推理时间长,部署难度高

推理需一定计算资源,某些场景下比 GNNs 高效,可借助模型压缩和量化技术减少资源消耗

2. 适用场景
  • 精确查询(如 SQL 条件检索):SQLNet,适合企业数据查询,如 CRM 系统,直接解析 SQL 语义,检索效率高,无需数据格式转换。
  • 关系推理/多跳分析(如推荐系统、药物分子分析):GNNs,适合社交网络分析,可以捕捉多跳关系(如 A→B→C 的间接关联),比如“患者症状 → 可能疾病 → 推荐药物”。
  • 语义匹配/模糊检索(如跨模态搜索、客服问答):BGE-M3,适合商品名称文本 + 价格、品牌等结构化字段等多维语义检索,可以将文本和结构化数据统一编码为语义向量,支持“高性价比手机”等模糊查询。还可适用于做 QA 查询,通过文本化处理(如“问题分类:售后;问题内容:物流查询”)生成联合向量,提升匹配精度,可用在智能客服场景中。
3. 性能与资源对比

模型

推理速度

内存占用

部署难度

SQLNet

GNNs

BGE - M3

4. 选型总结
  • 明确数据类型:表格 → SQLNet/BGE - M3;图 → GNNs。
  • 分析任务需求:精确查询 → SQLNet;关系推理 → GNNs;语义匹配 → BGE - M3。
  • 评估资源限制:低资源 → SQLNet;高资源 → GNNs/BGE - M3。

(二)文本型数据场景

1. 场景特点

文本型数据是最常见的数据类型,包括文档、文章、新闻、对话等。在 RAG 工作流中,需要根据用户的文本查询,从大量的文本数据中检索相关的文档。

  • 推荐模型:
    • text-embedding-3-small:高效且低成本,参数数量较少,支持多语言和动态维度调整,适合在资源有限的环境中使用。
    • text-embedding-3-large:规模较大,具有更多的参数,性能最强,支持更大维度(3072维),适合高精度任务,它能够学习到更复杂的语言模式和语义信息,因此在处理复杂的文本任务时可能表现更好。
    • Nomic Embed:完全开源可复现,长上下文(8192 token)优化,参数量小(137M),能够在处理大规模文本数据时提供高效的嵌入计算。它可以快速生成文本的向量表示,并且在搜索和检索任务中具有较低的延迟,Nomic Embed 与 Nomic AI 的向量数据库(如 Atlas)紧密集成,方便用户将生成的嵌入向量存储和查询,实现高效的语义搜索。
    • BGE-M3:这里再一次提到 M3,它的综合性能很强,中文场景最优,支持混合检索(稠密+稀疏向量),长文档处理突出,它不仅可以处理文本数据,还可以处理图像等其他模态的数据。该模型基于大规模的预训练,旨在学习不同模态数据之间的语义关联,以支持跨模态的检索和分析任务。

模型

核心优势

长文本处理

MTEB 准确率

开源性

资源需求

text-embedding-3-small

高效且低成本,支持多语言和动态维度调整

有限

为明确披露

闭源(需付费 api)

轻量级,适合 CPU/GPU 低显存环境

text-embedding-3-large

性能最强,支持更大维度(3072维),适合高精度任务

有限

91.2%

闭源(需付费 api)

需较高显存(如 4.8GB),适合 GPU 加速

Nomic Embed

完全开源可复现,长上下文(8192 token)优化,参数量小(137M)

优(8192 序列长度)

超越 ada-002

开源(MIT 协议)

模型大小约 274MB,CPU 即可运行,资源友好

BGE-M3

中文场景最优,支持混合检索(稠密+稀疏向量),长文档处理突出

较好

多语言任务最优

开源(MIT 协议)

需中等显存(如 4GB),推荐 GPU 部署以提升速度

2. 适用场景
  • 优先选择 BGE-M3:支持纯文本数据(文档、对话),混合型数据(文本+结构化属性)若需多语言支持且预算有限,BGE-M3 是开源方案中的首选,同时 BGE-M3 支持跨模态检索(文本+图像/表格),支持模糊匹配。
  • 长文本场景选 Nomic Embed:处理超长文档(如合同、书籍)时,Nomic Embed 的长序列能力更优,同时具备领域微调能力,预训练于法律语料库,可以精准捕捉“违约责任”“不可抗力”等专业语义
  • 依赖 OpenAI 生态选 text-embedding-3:若已深度集成 OpenAI 工具链,可结合其动态维度特性优化成本,large 可以提供高精度文本匹配,适合学术检索,有计算资源直接上 large,适合高精匹配。
3. 性能与资源对比

模型

推理速度

内存占用

部署难度

典型应用场景

text-embedding-3-small

极快

极低

移动端搜索、边缘设备

text-embedding-3-large

学术检索、复杂语义分析

Nomic Embed

法律、金融领域文本处理

BGE-M3

混合数据检索、多语言任务

4. 选型总结:
  1. 明确数据与任务:纯文本 → text-embedding系列/BGE-M3;领域文本 → Nomic Embed。
  2. 评估资源与需求:低资源 → small;高精度 → large/BGE-M3;领域需求 → Nomic。
  3. 验证扩展性:多语言/混合数据 → BGE-M3;动态领域 → Nomic Embed。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。​那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢?​
致Great
2025/03/19
8110
玩转RAG应用:如何选对Embedding模型?
基于 Cherry Studio+Ollama+DeepSeek 构建私有知识库
上期教程我们已实现在本地部署大模型,但尚未构建知识库系统。本期将带领读者完成基于 Cherony Studio+Ollama+DeepSeek 的私有知识库搭建,核心将采用 BGE-M3 向量模型实现知识嵌入。
徐建国
2025/02/07
8.2K1
基于 Cherry Studio+Ollama+DeepSeek 构建私有知识库
基于 DeepSeek R1 搭建自己的大模型知识库
基于本地环境搭建自己的大模型知识库,这里选取的是 DeepSeek R1 大模型。
王小明_HIT
2025/04/07
2430
基于 DeepSeek R1 搭建自己的大模型知识库
BGE M3-Embedding 模型介绍
BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding支持超过100种工作语言,支持8192长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。
JadePeng
2024/04/19
10K0
BGE M3-Embedding 模型介绍
DeepSeek搭建个人知识库教程
各位朋友,是不是经常被 AI 气得火冒三丈,恨不得把键盘给砸了?你让它查公司去年的财务数据,它却开始背诵经济学原理;你让它分析竞品的策略,它却大谈特谈马斯洛需求理论。我太能理解这种感受了,这就好比你花钱雇了个助理,结果这助理啥都不会,只会照搬百度百科的内容!
@派大星
2025/03/04
3630
DeepSeek搭建个人知识库教程
LLMOps实战(一):DeepSeek+RAG 协同构建企业知识库全流程指南
首先解释下什么是 LLMOps,Large Language Model Operations是专注于大语言模型全生命周期管理的工程实践,涵盖从模型开发、部署、监控到持续优化的系统性流程。其核心目标是提升LLM应用的可靠性、效率与可控性,解决大模型在实际落地中的技术与管理挑战。
范赟鹏
2025/03/24
8200
解读 RAG 中的 embedding model
在当前人工智能潮流中,RAG 技术备受关注,诸如 RAGFlow、Qanything、Dify、FastGPT 等 RAG 引擎逐渐受到广泛关注。在这些引擎的背后,嵌入模型扮演着关键角色,对于整个系统起着至关重要的作用。让我们一同探究这个神秘的嵌入模型!
福大大架构师每日一题
2025/03/13
1220
解读 RAG 中的 embedding model
Deepseek本地部署 + 个性化 Rag 知识库
Retrieval-Augmented Generation (RAG) 是一种结合了信息检索与文本生成的先进模型架构,旨在提高自然语言处理任务中的准确性和相关性。不同于传统的端到端生成模型,RAG 通过整合外部知识库来增强其输出内容的质量。具体来说,RAG 首先利用一个检索组件从大规模语料库中动态查找与输入查询最相关的文档或段落,然后将这些检索到的信息作为额外上下文传递给生成组件。这样,生成模型不仅能基于预训练的语言知识,还能依据最新的、具体的资讯来生成回复,从而确保了输出内容的时效性和准确性。
用户11404404
2025/04/15
990
Deepseek本地部署 + 个性化 Rag 知识库
私有化搭建、本地知识库、可联网查询、具备RAG能力的私人DeepSeek
以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。
参谋带个长
2025/02/15
2.8K0
【知识库特性增量】 DeepSeek-R1 模板支持 bge-m3 embedding model
Embedding 模型的核心价值在于将非结构化文本转化为数值向量,解决语义理解与计算效率问题:
Cloud Studio
2025/02/20
1K0
【知识库特性增量】 DeepSeek-R1 模板支持 bge-m3 embedding model
寻找最佳的RAG开源嵌入模型
寻找适合您 RAG 应用的最佳开源嵌入模型?我们分享一个比较工作流程,以便您可以停止支付 OpenAI 的费用。
云云众生s
2024/12/24
1.3K0
寻找最佳的RAG开源嵌入模型
Rerank进一步提升RAG效果
目前大模型应用中,RAG(Retrieval Augmented Generation,检索增强生成)是一种在对话(QA)场景下最主要的应用形式,它主要解决大模型的知识存储和更新问题。
Steve Wang
2024/05/16
1.8K0
Rerank进一步提升RAG效果
探索检索增强生成(RAG)技术的无限可能:Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成
由于 RAG 的整体思路是首先将文本切分成不同的组块,然后存储到向量数据库中。在实际使用时,将计算用户的问题和文本块的相似度,并召回 top k 的组块,然后将 top k 的组块和问题拼接生成提示词输入到大模型中,最终得到回答。
汀丶人工智能
2024/01/10
3.8K0
探索检索增强生成(RAG)技术的无限可能:Vector+KG RAG、Self-RAG、多向量检索器多模态RAG集成
RAG技术全解析:打造下一代智能问答系统
大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。RAG目前是基于LLM系统中最受欢迎的架构,有许多产品基于RAG构建,使RAG成为推动聊天机器人发展和增强LLM在现实世界应用适用性的关键技术。
用户9177072
2024/05/08
5730
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/06
1.1K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
deephub
2024/03/01
3.1K0
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
LLM RAG系列
本文介绍了RAG以及RAG pipeline的整个流程,包括请求转换、路由和请求构造、索引和检索、生成和评估等,其中引用了大量有价值的论文。
charlieroro
2024/04/02
8130
LLM RAG系列
Prompt提示工程上手指南:基础原理及实践(四)-检索增强生成(RAG)策略下的Prompt
此篇文章已经是本系列的第四篇文章,意味着我们已经进入了Prompt工程的深水区,掌握的知识和技术都在不断提高,对于Prompt的技巧策略也不能只局限于局部运用而要适应LLM大模型的整体框架去进行改进休整。较为主流的LLM模型框架设计可以基于链式思考(CoT)、思维树 (ToT)和检索增强生成 (RAG)。其中RAG框架可以算得上是AI平台研发的老生常谈之一了,因为无论是个人还是企业,都想要培养出一个属于自己领域专业的AI。但伴随而来的问题,不限于产生幻觉、缺乏对生成文本的可解释性、专业领域知识理解差,以及对最新知识的了解有限。
fanstuck
2024/02/28
2.1K3
Prompt提示工程上手指南:基础原理及实践(四)-检索增强生成(RAG)策略下的Prompt
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型;在OpenCompass的基准表现中,客观评测超过GPT-4 Turbo,主观评测已超过GPT-4o位列第一。
新智元
2024/06/17
5770
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/07
1.6K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
推荐阅读
相关推荐
玩转RAG应用:如何选对Embedding模型?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档