前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >PgSQL-向量数据库插件-lantern

PgSQL-向量数据库插件-lantern

作者头像
yzsDBA
发布2023-09-24 08:33:16
发布2023-09-24 08:33:16
42700
代码可运行
举报
运行总次数:0
代码可运行

PgSQL-向量数据库插件-lantern

即pgvector、pg_embedding 后又一向量数据库扩展Lantern问世了。当然也为向量列提供了hnsw索引以加速ORDER BY... LIMIT查询。Lantern使用usearch实现hnsw

使用方法

保留了标准PgSQL接口,兼容其生态工具。首先需要安装该插件:

代码语言:javascript
代码运行次数:0
复制
CREATE EXTENSION lantern;

创建一个包含向量列的表,并添加数据:

代码语言:javascript
代码运行次数:0
复制
CREATE TABLE small_world (id integer, vector real[3]);
INSERT INTO small_world (id, vector) VALUES (0, '{0,0,0}'), (1, '{0,0,1}');

在表上创建hnsw索引:

代码语言:javascript
代码运行次数:0
复制
CREATE INDEX ON small_world USING hnsw (vector);

根据向量数据自定义hnsw索引参数,例如距离函数(dist_l2sq_ops)、索引构建参数和索引搜索参数:

代码语言:javascript
代码运行次数:0
复制
CREATE INDEX ON small_world USING hnsw (vector dist_l2sq_ops)
WITH (M=2, ef_construction=10, ef=4, dim=3);

开始查询:

代码语言:javascript
代码运行次数:0
复制
SET enable_seqscan = false;
SELECT id, l2sq_dist(vector, ARRAY[0,0,0]) AS dist
FROM small_world ORDER BY vector <-> ARRAY[0,0,0] LIMIT 1;

关于运算符

Lantern在索引上支持的多种距离函数。只需要创建索引时指定用于列的距离函数,Lantern会自动推断用于搜索的距离函数进行查询,因此查询中使用<->操作符。

请注意,该运算符<->专门用于索引查找。如果您希望在查询中不使用索引,则直接使用距离函数(例如l2sq_dist(v1, v2))

在创建索引期间可以使用四个已定义的运算符类:

1)dist_l2sq_ops:类型的默认值real[]

2)dist_vec_l2sq_ops:类型的默认值vector

3)dist_cos_ops:适用类型real[]

4)dist_hamming_ops: 适用类型integer[]

索引构建参数

M, ef, 和ef_construction参数控制hnsw算法的性能:

1)通常以召回代价降低M和ef_construction值来加快索引创建速度

2)较低的M和ef值可以提高查询性能,以召回为代价减少共享缓冲区命中率。

特点

1)流行用例(CLIP 模型、Hugging Face 模型、自定义模型)的嵌入生成

2)与 pgvector 数据类型的互操作性,因此任何使用 pgvector 的人都可以切换到 Lantern

3)通过外部索引器创建并行索引

4)够在数据库服务器外部生成索引图

5)支持在数据库外部和另一个实例内部创建索引,使您可以在不中断数据库工作流程的情况下创建索引

6)查看所有helper函数以了解使用方法

性能

1)我们跟踪三个关键指标。CREATE INDEX时间、SELECT吞吐量和SELECT延迟。

2)我们在所有这些指标上都匹配或优于 pgvector 和 pg_embedding (Neon)。

3)我们计划继续进行性能改进,以确保我们是性能最佳的数据库。

路线图

1)Lantern 的云托管版本 -注册更新

2)为您的 CPU 量身定制的硬件加速距离指标,可实现更快的查询

3)用于构建不同行业应用程序的模板和指南

4)更多用于生成嵌入的工具(支持第三方模型 API、更多本地模型)

5)支持版本控制和 A/B 测试嵌入

6)自动调整的索引类型将选择适当的创建参数

7)支持 1 字节和 2 字节向量元素,以及最多 8000 个维度向量 ( PR #19 )

8)请通过support@lantern.dev请求功能

原文及代码

https://github.com/lanterndata/lantern

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-21 22:45,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 yanzongshuaiDBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用方法
  • 关于运算符
  • 索引构建参数
  • 特点
  • 性能
  • 路线图
  • 原文及代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档