词汇表

最近更新时间:2024-09-03 17:41:30

我的收藏

A

ANN

参见 ANN

ANN

ANN 表示近似最近邻搜索(Approximate Nearest Neighbor Search),是一种用于高维数据空间中快速查找最近邻点的方法。与精确最近邻搜索相比,ANN 牺牲了一定的精度以换取更高的搜索速度,因此在处理大规模数据集时具有较高的效率。ANN 方法通常会对数据进行预处理,从而在查询时减少计算距离的次数。ANN 算法的优点是速度快、效率高,但是相对于 KNN 算法来说,其结果可能不够精确。

F

分片

  • 在 Elasticsearch Service 中,分片(Shards)是数据的容器,文档保存在分片内,一个分片是一个底层的工作单元,它仅保存了全部数据中的一部分,分片又被分配到集群内的各个节点里,当您的集群规模扩大或者缩小时,Elasticsearch 会自动的在各节点中迁移分片,使得数据仍然均匀分布在集群里。
    一个分片可以是主分片或者副本分片。索引内任意一个文档都归属于一个主分片,所以主分片的数目决定着索引能够保存的最大数据量(技术上来说,一个主分片最大能够存储 Integer.MAX_VALUE - 128 个文档)。
    一个副本分片(Replicas)只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份,并为搜索和返回文档等操作提供服务。在索引建立的时候就已经确定了主分片数,但是副本分片数可以随时修改。
  • 在腾讯云数据仓库 TCHouse-C 中,将海量数据分散存储到多个节点上,每个节点只存储和处理海量数据的一部分,每台节点被称为一个分片(Shard)。
  • 在向量数据库中,为了支持更大规模的数据,集合一般会按某个维度分成多个部分,每个部分就是一个分片(Shard),分布在若干个节点(Node)上。为了保证可靠性和可用性,同一个集合的多个分片会分布在不同节点(Node)上。

副本

  • 在消息队列 CKafka 中,副本(Replica)是消息的冗余备份,每个分区可以有多个副本,每个副本包含的消息是一样的(在同一时刻,副本之间并不完全一样,这依赖同步机制)。
    在消息队列 CKafka 中每个分区至少有双副本,保障服务的高可用。
  • 在腾讯云数据仓库 TCHouse-C 中,为了保障服务的高可用性,TCHouse-C 提供了副本机制,将单个节点的数据冗余存储在2个或多个节点上。
  • 在向量数据库中,同一个分片(Shard)的备份数据,一个分片至少会有2个副本(Replica)。副本分片作为硬件故障时保护数据不丢失的冗余备份,并为向量检索和文档查询等读操作提供服务,确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。

H

HNSW

参见 HNSW

HNSW

HNSW 是一种基于图的高维向量相似性搜索算法,全称为:Hierarchical Navigable Small World。它通过构建一张图来表示向量之间的相似度关系,并使用一些优化策略来加速搜索过程。

J

节点

  • 在容器服务中,指一台已注册到集群内的云服务器。
  • 具有特定功能的区块链组件,可独立运行的单元。在区块链 TBaaS 中,是维护账本的网络节点,在 Fabric 区块链网络中默认指背书节点(endorser)。
  • 从向量数据库集群的资源角度来看,节点是用于存储数据的资源单位。一个运行中的向量数据库实例通常包含很多个节点,集合的多个副本和分片会分布在若干个节点上。节点是组成向量数据库集群的基本单元之一。

集合

在向量数据库中,集合(Collection)是指一组文档组,类似于关系型数据库中的表,其中可包含多条文档数据。集合没有固定的结构,可以插入不同格式和类型的数据。向量数据库支持集合维度的多分片、多副本特性,可以在创建集合时按需指定分片数和副本数。

K

KNN

参见 KNN

KNN

KNN 指的是最近邻搜索(K-Nearest Neighbor Search),是一种基于暴力搜索的方法,它的原理是:计算待查询向量与数据库中所有向量之间的距离,然后按照距离从小到大排序,选择距离最近的 K 个向量作为查询结果。KNN 算法的优点是可以保证精确的结果,但是对于大规模的向量数据,计算量会非常大,效率较低。

O

OLAMA

OLAMA 是腾讯自研的向量引擎,具有高性能、高可用、简单易用等特点。它支持单索引10亿级向量规模,适用于 AI 运算、检索场景,已稳定服务于近40个线上业务。

S

实例

  • 在容器服务中,由相关的一个或多个容器构成一个实例,这些容器共享相同的存储和网络空间。
  • 在批量计算中,实例即对应一个 CVM 实例,每个任务可以指定一个或多个实例(Instance)来执行同一个,实例是 Batch 调度和执行的最小单元。
  • 在数据安全治理中心中,泛指腾讯云上数据资产的单位,不同类型的数据资产单位不同,对于数据库而言是一个库,对于对象存储而言则是一个桶。
  • 在容器镜像服务中,实例为用户在指定地域可购买的独享的容器镜像托管服务,实例的后台服务及核心数据存储与其他用户的实例独立。在 Docker 原生概念中,实例可等同于独立的 Docker Registry 服务,也可以理解为用户在云端购买并部署了私有的 Docker Registry 服务。
  • 在云数据库 KeeWiDB 中,实例是腾讯云中独立运行的数据库环境,是用户购买 KeeWiDB 服务的基本单位,以单独的进程存在。一个数据库实例可以包含多个由用户创建的数据库。 您可以在控制台创建、修改和删除实例。实例之间相互独立、资源隔离,相互之间不存在 CPU、内存、持久内存、IO 等抢占问题。
  • 在向量数据库中,实例是腾讯云中独立运行的数据库环境,是用户购买向量数据库服务的基本单位,以单独的进程存在。一个数据库实例可以包含多个由用户创建的数据库。 您可以在控制台创建、修改和删除实例。实例之间相互独立、资源隔离,相互之间不存在 CPU、内存、持久内存、IO 等抢占问题。

数据库

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,一个实例可以创建多个 Database。

索引

  • 在 Elasticsearch Service 中:
    • 索引(名词)类似于传统关系数据库中的一个数据库,是存储关系型文档的地方。索引的复数词为 indices 或 indexes。
    • 索引(动词)一个文档就是存储一个文档到一个索引(名词)中,以便它可以被检索和查询。除了文档已存在时新文档会替换旧文档情况之外,这类似于 SQL 语句中的 INSERT 关键词。
  • 在日志服务中:
    为了快速检索出需要的日志,日志服务对上传至平台的日志进行包括分词在内的很多预处理,这个过程称之为创建“索引(index)”。索引决定了日志能够以什么样的条件来进行检索和分析,因此在上传日志数据前,需要为日志主题设置一个合理的索引规则,以方便后续检索分析。索引主要包括全文索引及键值索引两类,详细介绍请参见 配置索引
  • 在向量数据库中:
    索引(Index)是一种特殊的数据结构,用于快速查找和访问数据,存储在内存中。索引本身并不存储数据,而是存储指向数据存储位置的指针或键值对。Tencent Cloud VectorDB 支持 FLAT、HNSW 等常见的向量索引。索引介绍详见 向量检索

W

文档

  • Elasticsearch 是面向文档(document)的,它存储的是整个对象或文档,并且索引每个文档的内容使之可以被检索。Elasticsearch 使用 JSON 作为文档的序列化格式,简单、简洁、易于阅读。JSON 序列化被大多数编程语言所支持,并且已经成为 NoSQL 领域的标准格式。在 Elasticsearch 中,用户不是对行列数据进行检索,而是对文档进行索引、检索、排序和过滤,这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。
  • 在向量数据库中,集合 可以看作是一个表格,而 Document 可以看作是表格中的一行数据。每个 Document 代表一个完整的文档对象,包含了多个 Field,每个 Field 表示文档中的一个属性或字段。向量数据库的文档是一组键值对(key:value),每个文档都有一个唯一主键(id)和一个向量字段(vector)。在插入文档时,向量数据库不需要设置相同的字段,可以在插入数据时增加或删除字段。

X

向量

向量(Vector)可以理解为一组数值的有序集合,通常用于表示某个对象或事物的属性或者特征。这些数值可以有不同的维度,每个维度都表示一个属性或特征。在机器学习和人工智能领域,向量常用于表示图像、文本、音频等数据,通过计算向量之间的距离或相似度来实现分类、聚类、检索等任务。

Z

字段

  • 在腾讯云搜中,一个文档由多个字段组成,字段类型包括:文本域、数值域和分类域字段。
  • 在向量数据库中,每个字段 Field 是一个键值对(key:value),表示文档中的一个属性或者字段。每个 Field 都有自己的类型和取值范围,可以是字符串、数字等不同类型的数据。