
阅读收获
全文概览
随着AI大模型和RAG(检索增强生成)技术的飞速发展,向量数据库已成为构建智能应用不可或缺的核心组件。然而,您是否曾被传统向量搜索架构中DRAM的容量限制和高昂成本所困扰?在追求更大规模、更高效能的AI部署时,DRAM往往成为系统扩展性的瓶颈,让许多创新构想止步于成本与性能的权衡。
KIOXIA(铠侠)推出的AiSAQ™(All-in-Storage ANNS with Product Quantization)技术,正试图打破这一僵局。它提出了一种“全闪存”的ANNS(近似最近邻搜索)解决方案,旨在将海量向量数据及其索引结构从昂贵的DRAM转移到成本更低、容量更大的SSD上。这不仅有望大幅降低AI基础设施的总体拥有成本(TCO),更将为大规模RAG和语义搜索应用开启前所未有的可扩展性。本文将深入探讨AiSAQ™如何通过创新算法,重新定义AI向量搜索的未来。
👉 划线高亮 观点批注

AiSAQ™方案的行业价值
PPT的核心观点是,当前AI领域对RAG(检索增强生成)技术的需求正快速增长,这带动了对更大规模向量数据库的需求。然而,传统的RAG架构严重依赖DRAM来运行向量搜索(如HNSW算法),但DRAM的容量有限且成本高昂,这成为了实现大规模RAG的可扩展性瓶颈。
KIOXIA(铠侠)为此推出了名为AiSAQ™(All-in-Storage ANNS with Product Quantization)的解决方案。该技术的核心优势在于解除了DRAM的限制,允许RAG系统将海量的向量数据库存储在成本更低、容量更大的SSD(固态硬盘)上,并通过AiSAQ技术实现高效检索。

KIOXIA AiSAQ™ 概览
PPT的核心观点是对比并突显KIOXIA AiSAQ™架构的优越性。
它首先将传统的ANN实现(如HNSW)归类为“基于DRAM”的架构,其索引和向量都必须加载到昂贵的DRAM中,因此可扩展性受限。
接着,它展示了像DiskANN这样的“主要在存储中”的混合方法,这种方法将部分数据(PQ向量)保留在DRAM中,而将索引和原始向量放在存储上。
最后,KIOXIA AiSAQ™,将其定义为一种“全在存储中 (All in Storage)”的架构。AiSAQ通过其创新的算法,将包括索引、原始向量和PQ向量在内的所有关键数据结构都移到了SSD上,实现了“近乎零DRAM”的占用。
===
左侧文字内容(AiSAQ的关键特性): 左侧通过五个要点详细描述了KIOXIA AiSAQ™的特性:

在性能与规模之间提供灵活性
传统向量数据库架构面临一个固有的“权衡”难题:追求高性能(低延迟、高吞吐)通常会限制系统的可扩展性(能处理的向量数量);而追求大规模则往往会牺牲性能。
KIOXIA AiSAQ通过提供“灵活的设置”(Flexible setting)和“可调优”(Tunable)的能力,允许用户可以根据自己应用的具体需求,在“最大规模”和“最大吞吐量”之间找到一个“最佳平衡点”(optimal point)。

PPT的核心观点是用具体的数据和图表来证明 KIOXIA AiSAQ™ 的灵活性和可调优性。
AiSAQ并非只有一种工作模式,而是提供了一个可配置的范围,允许用户在“性能”和“规模”之间进行权衡和选择:

为RAG(检索增强生成)进行优化
在整个RAG链条中,延迟瓶颈在于LLM的推理(几百毫秒到1秒),而不是ANNS的向量搜索(小于100毫秒)。
这意味着,对于大多数RAG应用而言,并不需要追求ANNS服务器的极限性能(如5ms的超低延迟),因为LLM的延迟要高得多。因此,RAG应用开发者可以在AiSAQ提供的灵活范围内进行调优,适当放宽ANNS的延迟要求(例如到30ms),以换取巨大(且成本更低)的系统可扩展性(规模)。
===
下方的流程图(RAG Application Pipeline - RAG应用管道): 这张图详细分解了RAG应用的延迟构成:

为在线语义搜索进行优化
在线语义搜索(如电商、Web搜索)的特点:它需要“实时响应”,因此对延迟(典型要求10ms)和并发吞吐(要求数千QPS)极其敏感。其应用管道中没有缓慢的LLM推理,使得ANNS的搜索延迟成为关键瓶颈。
KIOXIA AiSAQ™在“最大性能”模式下,可以实现:

为离线语义搜索进行优化
离线搜索(如企业维基、向量湖)的特点:这类应用最关心的是处理“超大规模数据集”(ultra high scale datasets)。由于用户需要花费较长时间(远超毫秒级)来阅读和分析搜索结果,因此这类应用对ANNS的搜索延迟并不敏感,100ms的延迟和数百QPS的吞吐量通常已足够。
KIOXIA AiSAQ™的“最大扩展性策略,可以实现:

大规模RAG和离线搜索部署的经济性指数
通过量化数据和架构对比,证明KIOXIA AiSAQ™在超大规模部署(如大规模RAG和离线搜索)上的巨大经济优势。

多租户部署的优势
PPT的核心观点是KIOXIA AiSAQ™在多租户部署场景下具有压倒性优势,主要体现在“租户密度”和“冷启动延迟”两个方面。

总结页凝聚了整个演示文稿的核心信息。它强调 KIOXIA AiSAQ™ 是一款开源的、革命性的“全闪存”ANNS算法,其核心创新在于充分利用SSD来替代昂贵的DRAM。
这一创新带来了五大核心优势:高可扩展性、高性能、灵活的(性能/规模)平衡能力、卓越的多租户支持以及对RAG和语义搜索等关键AI应用的普适性。
基于SSD来离线处理RAG工作流的技术报道,自从AI需求爆发以后,屡见不鲜,但KIOXIA 在这篇材料里不论是性能还是容量都超越DRAM方案的实验数据,着实令人惊讶,且一定程度反常识,后续要翻一翻其开源的代码仓库,弄清楚:AiASQ 的实现原理以及和 DiskANN 的核心差异。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:KIOXIA AiSAQTMTechnology[2]~All-in-storage ANNS Algorithms Optimize VectorDB Usability within a RAG System
Notice:Human's prompt, Datasets by Gemini-2.5-Pro
#FMS25 #RAG和语义搜索
---【本文完】---
👇阅读原文,独立站提前更新🚀(测试中)🧪