Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型相关技术-embedding与分词

大模型相关技术-embedding与分词

原创
作者头像
西门呀在吹雪
发布于 2024-04-30 09:36:10
发布于 2024-04-30 09:36:10
6730
举报
文章被收录于专栏:架构之巅架构之巅

接上一篇文章大模型相关技术-初识RAG-腾讯云开发者社区-腾讯云 (tencent.com),我们已经对RAG(搜索增强)有了一定的了解,知道了为什么需要RAG和RAG的技术基石,本篇我们将详细学习一下RAG的两大关键技术中的embedding

自然语言处理(NLP)领域,分词和Embedding是两个基础且重要的概念。分词是将文本切分为单词或词汇单元的过程,而Embedding入则是将这些词汇转换为可供机器学习模型处理的数值向量。下面将结合分词技术,详细解释大模型中Embedding入技术。

分词技术

分词是将连续的文本序列分割成一个个独立的词汇单元的过程。在英语等使用空格分隔词汇的语言中,分词相对简单;而在汉语、日语等没有明显词汇界限的语言中,分词则是一个复杂的任务,通常需要借助特定的算法来识别词汇边界。

分词算法通常包括以下几种:

  1. 基于规则的分词:利用预设的规则(如词典和语法规则)来识别词汇。
  2. 基于统计的分词:通过分析大量的语料库,统计词汇的出现频率和共现概率来进行分词。
  3. 基于机器学习的分词:使用标注好的语料库训练模型,使其学习如何分词。
  4. 基于深度学习的分词:使用循环神经网络(RNN)、长短时记忆网络(LSTM)或者Transformer等深度学习模型进行分词。

普通的全文检索用了基于规则的分词,比如著名的IKAnayzer,他的实现算法是“正向迭代最细粒度切分算法”,基本逻辑为:

抱歉,腾讯云markdown编辑出来再富文本里面会错行,只能截图了
抱歉,腾讯云markdown编辑出来再富文本里面会错行,只能截图了

embedding技术

Embedding是将词汇转换为实数向量(无监督)的过程,这些向量能够捕捉词汇之间的语义关系。在大模型中,Embedding通常是模型的第一层,负责将输入的文本数据转换为可供后续层处理的数值形式。

Embedding入技术的关键特性包括:

  1. 分布式表示:每个词汇被表示为一个高维空间中的点,而不是单一的索引或符号。
  2. 上下文感知:Embedding通常考虑词汇的上下文信息,即同一个词在不同的上下文中可能有不同的表示。
  3. 语义相似性:在嵌入空间中,语义相近的词汇会被映射到相近的位置。

常见的Embedding模型有:

  1. Word2Vec:由Google提出的一种静态Embedding方法,包括连续词袋模型(CBOW)和Skip-gram模型。
  2. GloVe:全局向量Embedding模型,它结合了Word2Vec的优点,并加入了对词汇共现统计信息的考虑。
  3. FastText:由Facebook提出的一种模型,它可以看作是Word2Vec的扩展,支持对词汇进行子词级别的嵌入。
  4. BERT:基于Transformer结构的动态Embedding模型,它通过预训练的方式在大量文本上学习词汇的表示,能够很好地捕捉上下文信息。

目前主流的embedding模型评测结果:BCEmbedding/Docs/EvaluationSummary/embedding_eval_summary.md at master · netease-youdao/BCEmbedding (github.com)

有一个比较有意思的场景大家可能都遇到过,那就是各种信息流网站推送的推荐,我们盲猜一下推荐内容的来源,小王正在看文章《雪佛兰全尺寸SUV 太浩也许是你最终的选择》,当我点开这篇文章的时候embeddingModel将我的文章内容向量化,同时发起向量检索,找出匹配度高的文章,作为信息流不断地推给我,这也就是为什么推荐的新闻、视频越看越多?

我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)
自然语言处理(NLP)处于计算机科学、人工智能和语言学的交叉领域。它所聚焦的人类社会语言信息是无比丰富和复杂的,包括口语、书面语等各种形式。这种语言信息在日常生活、商业、学术、娱乐等各个领域广泛传播和使用。
正在走向自律
2024/12/18
1510
AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)
词向量发展历程:技术及实战案例
词向量(Word Vector)或词嵌入(Word Embedding)是自然语言处理(NLP)中的一项基础技术,它允许我们将自然语言中的词汇表示为实数向量。这些向量通常存在于一个高维空间内,其中每一个维度都可能代表着某种语义属性。通过这种转换,机器学习模型可以捕捉到词语之间复杂的关系,如语义相似性、反义、上下位关系等。
TechLead
2024/04/17
1.8K0
词向量发展历程:技术及实战案例
大白话讲解word2vec到底在做些什么
word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。
机器学习AI算法工程
2019/10/28
3.4K0
大白话讲解word2vec到底在做些什么
文本在计算机中的表示方法总结
本文为 AI 研习社社区用户 @Dendi 独家投稿内容,欢迎扫描底部社区名片访问 @Dendi 的主页,查看更多内容。
AI研习社
2019/10/29
3.2K0
文本在计算机中的表示方法总结
深度学习教程 | 自然语言处理与词嵌入
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得,对应的课程视频可以在这里查看。
ShowMeAI
2022/04/15
7930
深度学习教程 | 自然语言处理与词嵌入
RAG 修炼手册|一文讲透 RAG 背后的技术
今天我们继续剖析 RAG,将为大家详细介绍 RAG 背后的例如 Embedding、Transformer、BERT、LLM 等技术的发展历程和基本原理,以及它们是如何应用的。
Zilliz RDS
2024/04/11
1.9K0
RAG 修炼手册|一文讲透 RAG 背后的技术
从One-hot, Word embedding到Transformer,一步步教你理解Bert
NLP:自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。而自google在2018年10月底公布BERT在11项nlp任务中的卓越表后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP一枝独秀,本文将为大家层层剖析bert。
AI科技大本营
2019/07/03
1.9K0
从One-hot, Word embedding到Transformer,一步步教你理解Bert
深度学习基础入门篇10:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}
在NLP领域,自然语言通常是指以文本的形式存在,但是计算无法对这些文本数据进行计算,通常需要将这些文本数据转换为一系列的数值进行计算。那么具体怎么做的呢?这里就用到词向量的概念。
汀丶人工智能
2023/05/23
7630
深度学习基础入门篇10:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}
聊聊Embedding(嵌入向量)
简单来说,嵌入是用向量表示一个物体,这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一本书、一部电影等,可以说嵌入(Embedding)涉及机器学习、深度学习的绝大部分对象。这些对象是机器学习和深度学习中最基本、最常用、最重要的对象,正因如此,如何有效表示、学习这些对象就显得非常重要。 Embedding本身也在不断更新,由最初表现单一的静态向表现更丰富的动态延伸和拓展。具体表现为由静态的Word Embedding、Item Embedding、Graph Embedding、Categorical variables Embedding向ELMo、Transformer、GPT、BERT、XLNet、ALBERT等动态的预训练模型延伸。
Ryan_OVO
2023/10/19
1.6K0
聊聊Embedding(嵌入向量)
词向量(1)--从Word2Vec到ELMo
若你是做NLP的,一定对词向量很亲切,若你是做推荐的,对词向量也一定不会陌生,以词向量为代表的序列向量化方法已经成为机器学习中必不可少的实战利器。
流川枫
2020/04/24
9170
用万字长文聊一聊 Embedding 技术
作者:qfan,腾讯 WXG 应用研究员 随着深度学习在工业届不断火热,Embedding 技术便作为“基本操作”广泛应用于推荐、广告、搜索等互联网核心领域中。Embedding 作为深度学习的热门研究方向,经历了从序列样本、图样本、再到异构的多特征样本的发展过程。本文主要系统总结了现在主流的 Embedding 技术,简单介绍它们的基本原理,希望对大家快速整理相关知识有所帮助。 一、引言 在提到 Embedding 时,首先想到的是“向量化”,主要作用是将高维稀疏向量转化为稠密向量,从而方便下游模
腾讯技术工程官方号
2020/11/19
15.1K2
词向量算法「建议收藏」
https://www.cnblogs.com/the-wolf-sky/articles/10192363.html
全栈程序员站长
2022/06/30
9170
词向量算法「建议收藏」
什么是词向量?(NPL入门)
在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot representation和distribution representation。
全栈程序员站长
2022/07/01
2.5K0
什么是词向量?(NPL入门)
Word2Vec原理简单解析
词的向量化就是将自然语言中的词语映射成是一个实数向量,用于对自然语言建模,比如进行情感分析、语义分析等自然语言处理任务。下面介绍比较主流的两种词语向量化的方式:
全栈程序员站长
2022/08/27
1.4K0
Word2Vec原理简单解析
《词嵌入技术:开启文本理解的大门》
在自然语言处理领域,词嵌入技术为我们理解文本提供了强大的工具。其中Word2Vec和GloVe是两种常见且重要的词嵌入技术,它们在原理和应用上有着各自的特点。
程序员阿伟
2025/01/03
950
《词嵌入技术:开启文本理解的大门》
算法金 | 没有思考过 Embedding,不足以谈 AI
在当今的人工智能(AI)领域,Embedding 是一个不可或缺的概念。如果你没有深入理解过 Embedding,那么就无法真正掌握 AI 的精髓。接下来,我们将深入探讨 Embedding 的基本概念。
算法金
2024/06/27
6420
算法金 | 没有思考过 Embedding,不足以谈 AI
技术干货 | 达观数据智能问答技术研究
在AlphaGo大胜李世石、柯洁之后,人工智能越来越火,智能问答也是其中必不可少的一环。智能问答一般用于解决企业客服、智能资讯等应用场景,实现的方式多种多样,包括简单的规则实现,也可以基于检索实现,还可以通过encoder-decoder框架生成,本文通过几种常见的问答技术,概要介绍了达观数据智能问答相关原理研究。 1 基于规则的智能问答 基于规则的智能问答通常是预先设置了一系列的问答规则,在用户输入一个问题时,去规则库里匹配,看是否满足某项规则,如果满足了就返回该规则对应的结果。如规则库里设置“*你好
达观数据
2018/03/30
1.3K0
达观数据基于Deep Learning的中文分词尝试(上篇)
现有分词介绍 自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类语言的一种技术。在其中,分词技术是一种比较基础的模块。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语一般情况下都能简单且准确的提取出来。而中文日文等文字,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词提取出来。 分词的意义非常大,在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而
达观数据
2018/03/30
1.2K0
达观数据基于Deep Learning的中文分词尝试(上篇)
词嵌入Word2Vec
⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。**把词映射为实数域向量的技术也叫词嵌⼊(word embedding)。**近年来,词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。
大数据技术与机器学习
2019/11/20
9460
Word2vec原理及其Python实现「建议收藏」
在NLP(自然语言处理)里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以要处理 NLP 的问题,首先就要拿词语开刀。
全栈程序员站长
2022/08/30
3.7K0
Word2vec原理及其Python实现「建议收藏」
推荐阅读
相关推荐
AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档