作者介绍:崔鹏,计算机学博士,专注 AI 与大数据管理领域研究,拥有十五年数据库、操作系统及存储领域实战经验,兼具 ORACLE OCM、MySQL OCP 等国际权威认证,PostgreSQL ACE,运营技术公众号 "CP 的 PostgreSQL 厨房",学术层面,已在AI方向发表2篇SCI论文,将理论研究与工程实践深度结合,形成独特的技术研发视角。
2025 年的数据库赛道,PostgreSQL(简称 PG)依然是 “现象级” 存在 —— 从云厂商的核心主推数据库,到 AI 应用落地的标配,再到 PG17 版本的重磅更新,这颗 “开源数据库明珠” 不仅没被新技术浪潮淹没,反而成了企业数字化、AI 化转型的 “刚需底座”。今天我们就聊聊,2025 年的 PG 到底火在哪?普通开发者和企业该怎么抓住这波红利?
DB-Engines 2025 年 11 月的数据库排名中,PostgreSQL 已连续 8 个季度稳居第四,仅次于 Oracle、MySQL、MongoDB,而向量数据库细分赛道中,PG 凭借原生向量能力直接冲进前三 —— 要知道,这可是 PG “跨界” 和专业向量数据库同台竞技的结果。
背后的核心原因很简单:
向量数据库是 AI 应用的核心底座(比如 LLM 检索增强、图像 / 语音相似度匹配),而 PG17 对向量功能的升级,让它从 “凑合用” 变成了 “企业级可用”
PG16 及之前,向量功能主要靠pgvector插件实现,而 PG17 直接将vector类型纳入原生支持,同时新增了
IVFFlat
索引的并行构建能力,构建速度提升 3-5 倍;
支持HNSW索引(近似最近邻检索的 “天花板”),检索性能比 PG16+pgvector 提升 2 倍以上;
向量维度上限从 16000 提升到 65535,满足大模型 embedding 向量存储需求(比如 GPT-4o 的 1024 维度、开源大模型的 4096 维度都能轻松 hold 住)。
(新手友好版,直接复制可用)
-- 1. 创建测试表(存储商品embedding向量)
CREATE TABLE product_vectors (
id SERIAL PRIMARY KEY,
product_name VARCHAR(100),
embedding VECTOR(1024) -- 1024维度向量,适配主流大模型
);
-- 2. 创建HNSW索引(优化相似度检索)
CREATE INDEX idx_product_embedding ON product_vectors USING hnsw (embedding vector_cosine_ops);
-- 3. 插入测试数据(模拟大模型生成的embedding)
INSERT INTO product_vectors (product_name, embedding)
VALUES
('PostgreSQL实战教程', '[0.12,0.34,0.56,...]'), -- 省略1024维度具体值
('AI原生数据库指南', '[0.23,0.45,0.67,...]');
-- 4. 余弦相似度检索(找最相似的商品)
SELECT
product_name,
embedding <-> '[0.15,0.36,0.58,...]' AS similarity -- <-> 是余弦距离算子,值越小越相似
FROM product_vectors
ORDER BY similarity
LIMIT 5;很多人会问:有专门的向量数据库(如 Milvus、Pinecone),为什么还要用 PG?
成本低
无需额外部署、维护一套向量数据库,PG “一站式” 搞定业务数据 + 向量数据;
事务性
PG 支持 ACID 事务,而多数专业向量数据库不支持完整事务,适合 “业务数据 + 向量数据” 联动的场景(比如电商商品推荐);
生态互通
PG 能直接对接 Python、Java、Go 等主流语言,结合pgai插件还能直接在数据库内调用 AI 模型,无需跨系统交互。
2025 年 PG 最火的场景,是 “AI 原生数据库”—— 也就是让 PG 不仅存向量,还能直接参与 AI 推理、数据处理,核心靠这两个生态插件:
pgai是 2025 年 PG 社区的 “明星插件”,能让你在 SQL 中直接调用 OpenAI、阿里云百炼、本地大模型(如 Llama 3),比如:
-- 用pgai生成商品标题的embedding
INSERT INTO product_vectors (product_name, embedding)
VALUES (
'2025 PG实战手册',
pgai_embed('llama3-8b', '2025 PG实战手册:从向量存储到AI原生')
);
-- 用pgai直接生成摘要
SELECT pgai_completion('qwen2-7b', '总结这篇文章:' || product_name)
FROM product_vectors LIMIT 1;无需写 Python 脚本调用 AI 接口,直接在数据库层完成 embedding 生成、文本总结,大幅降低 AI 应用开发成本。
结合 PG 的定时任务插件pg_cron,可以自动更新过期的向量数据,适配大模型迭代:
-- 每天凌晨2点更新商品embedding
SELECT cron.schedule(
'daily-embedding-update',
'0 2 * * *',
$$
UPDATE product_vectors
SET embedding = pgai_embed('llama3-8b', product_name)
WHERE update_time < NOW() - INTERVAL '7 days';
$$
);从关系型数据库的 “全能选手”,到 AI 时代的 “刚需底座”,PostgreSQL 在 2025 年的火爆,本质是 “技术适配趋势” 的胜利 —— 它没有固守传统,而是持续吸纳向量、AI、云原生等新能力,同时保持了开源、稳定、生态丰富的核心优势。
对于开发者来说,掌握 PG17 的向量 + AI 能力,会成为求职、项目落地的 “加分项”;对于企业来说,用 PG 替代 “多库混用” 的架构,能大幅降低运维和开发成本。
本文分享自 CP的postgresql厨房 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!