首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >边缘LLM推理:闪存如何突破显存与性能瓶颈?

边缘LLM推理:闪存如何突破显存与性能瓶颈?

作者头像
数据存储前沿技术
发布2025-11-20 14:00:16
发布2025-11-20 14:00:16
280
举报

阅读收获

  1. 核心挑战:分析LLM规模与边缘设备资源(GPU显存)的矛盾及高成本,为评估边缘AI方案奠定基础。
  2. 优化策略:掌握通过数据优化、xNVMe I/O加速、并行读取及智能显存管理等技术,利用SSD突破GPU显存瓶颈,实现大模型流式加载。
  3. 性能提升:了解“交错语言模型”和“推理-评估”架构如何通过模型协作,在有限资源下提升LLM推理的准确性和响应质量。
  4. SHARAG价值:认识SanDisk SHARAG技术在降低VRAM需求(60-70%)和提升多模型准确率方面的成效,为选型提供参考。

全文概览

大型语言模型(LLM)正加速向资源受限的边缘设备渗透,但部署这些数十亿参数的模型面临巨大挑战。如何在有限的GPU显存(如PC的<16GB)和高昂的硬件成本间取得平衡,是实现本地化、低延迟AI体验的关键难题。本文将探讨这一矛盾,并揭示SanDisk如何通过创新的闪存驱动架构,在不牺牲性能的前提下,显著降低边缘LLM推理的部署门槛。

👉 划线高亮 观点批注


在边缘设备上进行LLM推理的挑战
在边缘设备上进行LLM推理的挑战

在边缘设备上进行LLM推理的挑战

PPT的核心观点是:在边缘设备上本地运行大型语言模型 (LLM) 面临着模型、设备和成本三重严峻挑战。

  1. 技术矛盾: LLM 模型日益庞大(数十亿参数),需要高端GPU的强大算力和海量显存。
  2. 设备瓶颈: 边缘设备(如PC)的GPU显存普遍不足(<16GB),无法承载大型LLM。
  3. 成本障碍: 具备足够显存(如16GB+)的GPU价格极其昂贵($2500+),将其大规模部署到边缘设备在经济上不具备可行性。

端侧/边缘 AI 的必然性源于物理世界对本地、安全和韧性智能的迫切需求。而集中数据中心的超强大模型,尽管能力强大,却因其庞大的资源需求、高昂的部署成本以及网络传输的固有局限,难以直接满足这些端侧应用场景的特定要求


利用闪存的架构
利用闪存的架构

利用闪存的架构

PPT的核心观点是:通过利用闪存(SSD)并结合一系列软硬件优化技术,可以有效解决上一张PPT中提到的边缘LLM推理所面临的GPU显存瓶颈问题。

这张幻灯片从“问题”转向了“解决方案”。它明确指出,将模型参数存储在闪存中,并在需要时“流式传输”到GPU是可行的。为了使这个“流式”过程足够快以保证“可接受的推理性能”,它提出了一套组合拳(即“Speed up”策略),包括:

  1. 数据优化 (Row Column Bundling):从SSD读取更少的数据块。
  2. I/O 优化 (xNVMe):大幅降低SSD的读取延迟。
  3. 流程优化 (Parallel Reads):隐藏I/O延迟,让数据加载和计算并行。
  4. 显存管理 (Streaming & Reside Embeddings on CPU):智能地管理有限的GPU显存,只加载当前需要的部分模型,甚至将一部分(如Embeddings)永久放在CPU内存中,从而极大降低对GPU显存的硬性需求。

从NVMe设备加载LLM
从NVMe设备加载LLM

从NVMe设备加载LLM

PPT的核心观点是:通过“xNVMe 优化”架构,可以从根本上解决从SSD加载LLM模型数据到CPU的I/O瓶颈,实现约60%的延迟降低,从而使“从闪存流式加载LLM”的方案变得高性能且切实可行。

它用一个“之前”(Standard,142ms)和“之后”(xNVMe Optimizations,54ms)的直接对比,强有力地证明了该优化的有效性。通过绕过或优化标准的I/O堆栈(如Linux内核的常规路径),xNVMe技术极大地缩短了数据从物理SSD到达应用程序(准备传输给GPU)的时间。

==

架构图 (Architecture Diagram):

  • SSD (固态硬盘): 位于右侧,是存储的起点。它通过 PCIe 总线连接到CPU。
    • 内部存储着“Gemma-7B Full Model”(Gemma 7B 完整模型)。
    • 包含“Controller”(控制器)、“FTL”(闪存转换层)和“NVMe Driver”(NVMe驱动程序)。
  • CPU Unit (CPU单元): 位于中间,是数据处理和调度的中枢。
    • 包含“Application Running LLM”(运行LLM的应用程序)。
    • 包含“Linux Kernel”(Linux内核)和“System RAM”(系统内存)。
    • 最关键的是一个标红的模块 “xNVMe”。这个模块看起来是一个优化的I/O路径,它直接与应用程序、系统RAM和底层的“NVMe Driver”交互。
  • GPU Unit (GPU单元): 位于左侧,是执行推理计算的单元。
    • 包含“GPU”和“VRAM”(显存)。
    • VRAM中加载了模型的特定部分,如图所示的“Emb.” (Embeddings,嵌入层) 和 “Attn.” (Attention,注意力层)。
    • CPU通过“CUDA Kernel APIs”将数据写入GPU VRAM。

交错语言模型
交错语言模型

交错语言模型

PPT的核心观点是:“交错语言模型”技术允许在单个GPU上同时运行两个或多个不同的LLM(如Gemma和LLaMa2),通过让它们“轮流”生成token来共同完成一个推理任务。

这种方法有两大价值:

  1. 提升质量: 它融合了不同模型的“专长”和视角,生成的结果可能比任何单一模型都更丰富、更可靠(即“集思广益”)。
  2. 解决部署挑战: 它呼应了第一张PPT中提到的“在边缘部署多模型(Multi-Model Deployment)”的挑战。结合前两张PPT的“闪存流式加载”技术,这种交错方法(Interleaving)成为了一种可行的、高性能的方案,使得在显存有限的边缘设备上同时利用多个大型模型成为可能。

通过推理Token增强响应
通过推理Token增强响应

通过推理Token增强响应

PPT的核心观点是:展示了一种先进的多模型“推理-评估”(Reasoning-Evaluation)架构,用于生成更高质量的响应。

与上一张PPT的“交错生成”(模型A和B轮流说一个词)不同,这种架构更像是一个“团队协作”或“专家会诊”:

  1. 分配任务: 将同一个初始问题 ("Transformers enable") 同时发送给两个不同的“专家”模型(Gemma 7B 和 LLaMa2 7B)。
  2. 专家思考: 每个专家模型独立生成自己擅长领域的“见解”或“思考”——即“Reasoning Tokens”(Gemma 侧重于“并行处理”,LLaMa2 侧重于“注意力机制”)。
  3. 汇总报告: 将这些来自不同专家的“推理Token”汇总并“喂”给一个“评估者/总结者”模型(Evaluator Model)。
  4. 最终决策: “评估者模型”在充分理解了所有专家意见后,生成一个融合了各方观点的、更全面、更深入的最终答案。

这种方法旨在利用不同模型的独特优势来克服单一模型可能存在的局限性,从而显著“增强响应”的质量和深度。


结果评估
结果评估

结果评估

核心观点是:名为“SHARAG”的新技术,同时实现了“更高准确率”和“更低内存占用”两大突破,使得在边缘设备上运行高级多模型LLM成为可能。

  1. 解决性能问题(准确率): 图表证明了“Reasoning Tokens”和“Interleaved”等多模型技术能提供比单一模型更优的(“Breakthrough”)推理准确率。
  2. 解决成本和资源问题(内存): 表格证明了“SHARAG”技术(即闪存流式加载方案)能将LLM的内存占用(VRAM需求)降低约 60-70%
    • 它将单个7B模型的需求从“无法承受”的 16GB+ 降低到了“入门级显卡”也能满足的 5-6 GB。
    • 更重要的是,它使得运行“高准确率的多模型组合”(传统需 32.5 GB)成为可能,仅需 11 GB 内存。

总结与回顾
总结与回顾

总结与回顾

SanDisk (闪迪) 提出了一套完整的软硬件协同解决方案 (在第6张PPT中被命名为 SHARAG),它成功地攻克了在边缘设备上运行大型LLM的两大核心难题:

  1. 解决了“显存不足”的难题 (硬件/成本): 通过优化的 xNVMe 闪存流式加载技术 (Efficient Model Loading),将大模型所需的显存占用(Memory footprint)降低了60-70%,使得在普通、经济可行的边缘硬件上运行LLM成为可能。
  2. 解决了“性能不足”的难题 (质量/准确率): 通过先进的多模型推理技术 (Advanced Inference Techniques),如“交错模型”和“推理Token”,在边缘设备上实现了比传统单一模型更高级、更准确的推理结果。

后续工作
后续工作

后续工作

为了让SHARAG(闪存流式加载)技术更强大、更通用,下一步计划是将其与标准的“ML后端”深度集成。

这个集成的逻辑非常清晰:

  1. 后端负责“规划”: ML后端擅长分析模型并制定一个“执行计划”,它能预知在计算的每一步“需要哪些数据(权重)”。
  2. SHARAG负责“执行”: SHARAG/xNVMe模块擅长“高效地从SSD获取数据”。

两者的结合 (Benefit 01 + 02),可以实现一个“智能预取”系统:后端提前告诉SHARAG模块“准备好数据A、B、C”,SHARAG模块就在GPU还在计算当前数据时,利用I/O并行从SSD中拉取A、B、C。

这种“规划”与“执行”的分离,使得SHARAG可以作为一个“内存管理模块”插入到不同的“开源后端”中,而不需要对推理源代码进行大改,从而实现最佳的性能和可维护性。


延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. SHARAG闪存流式加载技术对用户体验(如首次响应、对话流畅度)的I/O延迟影响边界何在?它在数据安全和可靠性方面带来哪些新挑战或机遇?
  2. “交错语言模型”和“推理-评估”架构是否适用于多模态LLM的边缘部署?如何优化这些多模型协作机制以适应复杂边缘AI场景?
  3. 面对未来LLM增大和边缘硬件发展,SHARAG这类通用闪存方案的长期竞争力如何演变?如何平衡通用硬件优化与专用AI芯片的投入?

原文标题:Flash-Powered Mixture of Language Models Inference on Edge Devices[1]

Notice:Human's prompt, Datasets by Gemini-2.5-Pro

#FMS25 #边缘AI推理

---【本文完】---


👇阅读原文,独立站提前更新🚀(测试中)🧪


  1. https://files.futurememorystorage.com/proceedings/2025/20250806_AIML-201-1_Saxena_Kansal.pdf ↩
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档