首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

入门 | 神经网络词嵌入:如何将《战争与和平》表示成一个向量?

我将在我正在研究的一个真实问题的背景中介绍这些概念:将维基百科上的所有书籍都表示成向量以创建一个书籍推荐系统。 ?...对于我们的书籍项目,这就意味着我们可以使用神经网络嵌入将维基百科上的 37000 篇书籍文章都各自表示成一个仅具有 50 个数字的向量。...第一个问题很容易理解:每增加一个类别(成为实体),我们都必须为 one-hot 编码的向量增加一个数。...为了计算相似度,我们取一个查询书籍,然后得出其向量与所有其它书籍的向量之间的点积。(如果我们的嵌入经过了归一化,那么这个点积就是向量之间的余弦距离,其范围从最不相似的 -1 到最相似的 +1。...这些嵌入克服了传统编码方法的局限,并可被用于寻找最近邻、作为另一个模型的输入以及可视化等目的。 尽管本文用一些学术术语谈到了很多深度学习概念,但神经网络嵌入很直观而且实现方法也相对简单。

50520
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    向量数据库入坑指南:使用 Faiss 实现一个最简单的向量检索功能 (二)

    上一篇内容中,我们了解了什么是 Faiss,以及如何将文本内容转换为向量数据。本篇文章中,我们来使用 Faiss 实现向量检索功能。...使用 Faiss 实现最简单的向量检索功能 接下来,我们将使用 Faiss 实现一个小功能,针对哈利波特小说全集内容,接触向量检索技术,完成相似内容搜索的功能。...faiss.IndexFlatL2 函数,建立一个空的索引容器,然后使用 index.add(sentence_embeddings) 将我们在之前处理好的向量数据灌入这个索引容器中。...,就是我们的向量数据,通过 len 方法来获取数据长度,我们能够确认数据长度为 768,这个数据长度,就是被我们称呼为维度的神奇数字(可以发挥想象,一个 768 维的立体世界)。...好啦,对于目前的我们来说,了解到向量检索的过程和向量到这个程度就足够啦。

    5.9K22

    向量数据库:AI时代的下一个热点

    最近,又一个概念火了——向量数据库。 随着大模型带来的应用需求提升,4月以来多家海外知名向量数据库创业企业传出融资喜讯。...这时,你需要的是一个能够理解你的意图,为你提供最相关的结果,让你轻松找到你想要的信息的工具。 这就是向量数据库(Vector Data Base),它就像一个超级大脑,帮助你解决这些问题。...这就像是在一个拥挤的图书馆里找一本书,你知道它在哪个书架上,但是找到它还需要花费大量的时间。...它为大语言模型提供了一个外部知识库,使得大语言模型可以根据用户的查询,在向量数据库中检索相关的数据,并根据数据的内容和语义来更新上下文,从而生成更相关和准确的文本。...向量数据库在拓展AI全新应用场景的同时,也将对传统数据库产品形成替代,进而成为AI时代的Killer App。 目前,向量数据库是一个亟待引爆的蓝海市场。

    38040

    苹果开源一个可提升 Apache Spark 向量处理速度的插件

    消费电子巨头苹果公司发布了一个开源插件,可以帮助 Apache Spark 更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。...苹果工程师已经将其提交给了 Apache 软件基金会,使其成为 Apache Arrow 项目下的一个子项目。...Apache Arrow 项目管理委员会主席 Andy Grove 在 X 上指出:“对于最近每个人都在谈论的可组合数据系统概念,这就是一个很好的例子。...向量处理已经成为机器学习社区中最受欢迎的技术,因为它可以缩短分析大量数据的时间。...(点击查看大图) 其他可加速向量处理的 Spark 插件 软件工程师 Chris Riccomini 指出,苹果公司并不是 FAANG 俱乐部中唯一对向量处理感兴趣的成员。

    24010

    将向量提取器用于平行语料对齐的一个小示例

    zh_list = [ "国际高等教育研究机构QS Quacquarelli Symonds于2023年6月28日正式发布第20版世界大学排名,首次将就业能力和可持续发展指标纳入排名体系,成为全球唯一一个同时包含这两项指标的排名...本次上榜者的财富总额从去年的1.48万亿美元下降至9,071亿美元,跌幅达到39%,并创下了《福布斯》调查中国内地富豪20多年以来的最大跌幅。", "新能源是指传统能源之外的各种能源形式。...它的各种形式都是直接或者间接地来自于太阳或地球内部所产生的热能。包括太阳能、风能、生物质能、地热能、水能和海洋能以及由可再生能源衍生出来的生物燃料和氢所产生的能量。...新能源是指传统能源之外的各种能源形式。它的各种形式都是直接或者间接地来自于太阳或地球内部所产生的热能。...国际高等教育研究机构QS Quacquarelli Symonds于2023年6月28日正式发布第20版世界大学排名,首次将就业能力和可持续发展指标纳入排名体系,成为全球唯一一个同时包含这两项指标的排名

    11510

    LSTMs

    换句话说,将每个向量的第一维中的值相乘,以获得新向量的第一维。然后将两个向量的第二维相乘,等等。 这不是一个线性变换,在这种意义上,你不能通过连接两个向量获得相同的结果,然后乘以权重矩阵。...相反,这更像是将一个输入向量视为一个权重矩阵,您将乘以另一个输出向量。...该“权重矩阵”向量在许多方面不如典型RNN中的内置权重矩阵令人印象深刻。它等价于一个向量的值沿着对角线,其余的项等于零的矩阵。所以它不能做任何操作变成另一个向量。...如果它接近1,输出值正好等于该维中的另一个向量的值。(并且通常应用非线性变换以确保“权重矩阵”值非常接近0或1.)因此,“权重矩阵”向量选择第二向量的哪些部分被传递到下一步。...在该过程中的关键步骤是如何将存储器向量和变换的输入向量相加之前独立地门控。在最简单的设置中,每个“权重矩阵”向量将具有值0或1,并且将在两个门之间互补,使得每个维度从其中一个或另一个维度获得值。

    61210

    小孩都看得懂的 SVD

    1 简单的 Puzzle 如下图所示,如何将左边的圆只通过旋转和拉缩转换成右边的椭圆?注意拉缩只能沿着水平和竖直的方向进行,不能沿着任何方向进行。 ?...线性转换就是矩阵乘以向量。 ?...如上图所示,向量 (p, q) 代表一个点,矩阵 A 乘向量得到 (3p, 4p+5q) 代表另一个点,那么从 (p, q) 到 (3p, 4p+5q) 就是线性转换 下图给 (p, q) 赋予具体...用该矩阵乘以向量 (p, q) 得到 (pσ1, qσ2) 等价于水平方向拉伸 σ1 倍,竖直方向拉伸 σ2 倍,如下两图所示。 ? ?...6 Puzzle 用数学表示 为了把左边圆转换成右边椭圆 由线性转换可知,需要用矩阵 A 乘以向量 (p, q) 由 Puzzle 可知,需要“旋转-拉伸-旋转” 上两小节也介绍了用于旋转和拉伸的矩阵

    71320

    一文搞懂Prometheus、Grafana(含腾讯云上实战)

    如下图所示,可以将向量理解为一个以时间为X轴,值为Y轴的数字矩阵:[时序.png]在时间序列中的每一个点(即图上的小黑点)称为一个样本(sample),样本由以下三部分组成:指标(metric):metric...区间向量表达式和瞬时向量表达式之间的差异在于在区间向量表达式中我们需要定义时间选择的范围,时间范围通过时间范围选择器[]进行定义。通过区间向量表达式查询到的结果我们称为区间向量。...支持的聚合函数有:sum (求和)min (最小值)max (最大值)avg (平均值)stddev (标准差)stdvar (标准方差)count (计数)count_values (对value进行计数...特别注意单个普罗米修斯服务只能在单个vpc(私有网络)下使用的,所以购买时一定要确认清楚自己需要监控的服务所在的vpc,即对应下图框内“网络”的第一个下拉框。...[购买普罗米修斯]2.TSF服务部署在部署我们的TSF服务时,需要注意将普罗米修斯上报端口(即容器端口)映射到主机端口上,这样普罗米修斯才能获取到对应的上报数据。

    53.6K3116

    接近完美的监控系统—普罗米修斯

    大家好,又见面了,我是你们的朋友全栈君。 普罗米修斯(Prometheus)是一个SoundCloud公司开源的监控系统。...这时候,exporter会暴露一个http接口,普罗米修斯通过HTTP协议使用Pull的方式周期性拉取相应的数据。...这就是为什么你从架构图里能看到两个 Pull metrics 的原因,一个是采集器直接被Server拉取数据(pull);另一个是采集器主动Push数据到Push Gateway,Server再对Push...PromQL会处理两种向量: 即时向量:表示当前时间,某个指标的数据向量。 时间范围向量:表示过去某时间范围内,某个指标的数据向量。...因此该公司使用普罗米修斯来监视其MySQL多主群集和一个12节点的Cassandra环,该环可容纳约4TB的数据。普罗米修斯在初步测试中表现良好。

    6.2K10

    Hello, Vector DB | AIGC 时代,你需要一个真正的向量数据库么?

    同理,如果想为自己的个人网站快速搭建一个问答机器人,或者为相册里的十万张照片建立一个索引,你可以选择最熟悉和便捷的方法,无论是使用免费的向量检索云服务,或者安装基于 PostgreSQL 的开源向量检索插件...然而,如果我们的目标是一个品质高端的晚宴,大概率会选择一个五星级餐厅。...相对地,如果你需要快速构建原型系统并对性能有一定要求,FAISS 可能是一个好选择。FAISS 是 Meta 开源的一个库,用于高效相似性搜索和密集向量聚类。...向量数据库既是一个数据库,也是一个高性能计算系统,开发者需要拥有很强的 Hardware sympathy,这也是我认为我们需要 Purpose built 向量数据库的重要原因。...Milvus 基于分布式存储和消息队列实现数据的可用性,基于 K8s 实现无状态故障恢复的无疑更省资源,故障恢复时间也更短。 向量数据库的稳定性另一个重要挑战是资源管理。

    98730

    【干货】​深度学习中的线性代数

    向量(Vector) 向量是一个有序的数字数组,可以在一行或一列中。 向量只有一个索引,可以指向矢量中的特定值。 例如,V2代表向量中的第二个值,在上面的黄色图片中为“-8”。 ?...请注意,向量也是一个矩阵,但只有一行或一列。 在黄色图片的例子中的矩阵也是2×3维的矩阵(行*列)。 下面你可以看到矩阵的另一个例子及其符号: ?...为了得到结果向量的第一个值(16),我们将我们想要与矩阵(1和5)相乘的向量的数字乘以矩阵的第一行的数字(1和3))。...像这样: 1 * 1 + 3 * 5 = 16 我们对矩阵的第二行中的值也做同样的操作: 4 * 1 + 0 * 5 = 4 再次计算矩阵的第三行: 2 * 1 + 1 * 5 = 7 这是另一个例子:...4.矩阵 - 矩阵乘法(Matrix-Matrix Multiplication) 如果你知道如何将一个矩阵乘以一个向量,那么将两个矩阵相乘并不困难。

    2.3K100

    Rolling and Unrolling RNNs

    回想一下,神经网络由有向图定义,即其中每个边缘具有从一个端点指向另一个端点的箭头的图。我把这个图形称之为经典神经网络图,其中每个顶点是一个神经元,发出一个单一的值。...因此,通过网络的自然流动允许我们一次一个地计算每个顶点所表示的向量,使得当我们计算每个向量时,我们已经计算了它的输入,即在另一端的向量是指向它的边缘的。...例如,以输入向量和中间向量C(乘以权重矩阵MA)计算右侧图中的向量A。 其中“c”的圆圈表示连接向量,这意味着创建一个新的(更高维度的)向量in和C,其中前半部分来自输入向量,后半部分来自输入向量C。...当第一个输入值in0到达顶点A时,我们还没有一个值用于C,所以我们只使用适当维度的零向量,我们让值A0我们计算的值。类似地,我们可以通过B0乘以A0及矩阵MB和来自B0和MC的第一输出值C0来计算。...由于我们有每个权重矩阵的多个副本,我们可能要为每个副本获得不同的渐变。 但是我们希望每个矩阵的所有副本保持不变,所以我们将组合所有的渐变,通常采用平均值,并使用这个来更新所有副本的基本矩阵。

    1.2K20

    Sentence-BERT详解

    通常获得句子向量的方法有两种: 计算所有Token输出向量的平均值 使用[CLS]位置输出的向量 然而,UKP的研究员实验发现,在文本相似度(STS)任务上,使用上述两种方法得到的效果却并不好,即使是Glove...实验中采取了三种Pooling策略做对比: CLS:直接用CLS位置的输出向量作为整个句子向量 MEAN:计算所有Token输出向量的平均值作为整个句子向量 MAX:取出所有Token输出向量各个维度的最大值作为整个句子向量...针对分类问题,作者将向量u,v,|u-v|三个向量拼接在一起,然后乘以一个权重参数W_t\in \mathbb{R}^{3n\times k},其中n表示向量的维度,k表示label的数量 o = softmax...给定一个主句p和一个负面句子n,三元组损失调整网络,使得a和p之间的距离尽可能小,a和n之间的距离尽可能大。...蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(Premise),另一个文本作为假设(Hypothesis),如果根据前提能够推理得出假设,那么就说前提蕴含假设。

    4.2K20

    通过支持向量回归和LSTM进行股票价格预测

    滚动平均值也称为移动平均值。移动平均线有助于平滑具有大量波动的数据,并帮助更好地了解数据的长期趋势。 使用移动平均线,可以定义一段时间,想要取平均值称为窗口。...将所有元素相加并除以100得到平均值。然后删除元素,a[0]将另一个价格附加到数组的末尾。然后再次对所有元素求和,然后除以100得到下一个平均点。...为了更好地理解RBF如何将数据传输到更高维度的空间,从Brandon Rohrer的视频中创建了一个gif 。这显示了线性超平面如何无法分离4组数据点。...下面是另一个可视化的有用图片: 规范数据: # Create train set of adj close prices data: train_data = df.loc[:,'Adj Close']...然后将前一个隐藏状态乘以输入并传递给tan激活函数,该函数将值调整到-1到1的范围内。然后,将sigmoid输出乘以tan输出。sigmoid输出决定哪些信息对于保持tan输出很重要。

    3.5K22

    GPT 大型语言模型可视化教程

    请注意,这些位置嵌入和标记嵌入都是在训练过程中学习的(用蓝色表示)。 现在我们有了这两个列向量,只需将它们相加,就能产生另一个大小为 C = 48 的列向量。...我们的目标是使该列的平均值等于 0,标准差等于 1。为此,我们要找出该列的这两个量(平均值 (μ) 和标准差 (σ)),然后减去平均值,再除以标准差。...另一个要素是,在求出点积后,我们要除以 sqrt(A),其中 A 是 Q/K/V 向量的长度。这种缩放是为了防止大值在下一步的归一化(软最大值)中占主导地位。...我们查看归一化自我关注矩阵的 (t = 5) 行,并对每个元素乘以其他列的相应 V 向量。 然后,我们就可以将这些相加得出输出向量。因此,输出向量将以高分列的 V 向量为主。...-1 1 2 3 -3 -2 -1 1 2 3 然后,我们用另一个带偏置的矩阵-向量乘法将向量投影回长度 C。

    20510

    挑战NumPy100关,全部搞定你就NumPy大师了 | 附答案

    ☆) 使用随机值创建一个10x10数组,并找出其最小值和最大值 (★☆☆) 创建一个大小为30的随机向量并找到平均值 (★☆☆) 创建一个2维数组,边框元素都为1,内部元素都为0 ; 如下图所示...创建一个自定义dtype,用这个数据类型可以将颜色描述为四个无符号字节(RGBA)(★☆☆) 24. 5x3矩阵乘以3x2矩阵(实矩阵乘积) (★☆☆) 25....什么东西与numpy数组的枚举等价?(★★☆) 56. 生成一个通用的二维高斯型数组 (★★☆) 57. 如何将p个元素随机放置在二维数组中 (★★☆) 58....设有一个四维数组,如何一次获取最后两个轴上元素的总和?(★★★) 68. 设有一个单一维度的向量D, 如何计算D的一个子集的平均值 (该子集使用一个和D相同大小的向量S来存子集元素的索引?...计算一个1维数组X的平均值, 要求使用自展法求95%的置信区间.

    5K30
    领券