首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >智能负载均衡提升数据中心SSD性能

智能负载均衡提升数据中心SSD性能

原创
作者头像
用户11764306
发布2026-04-28 11:25:20
发布2026-04-28 11:25:20
630
举报

MIT研究人员开发了一种智能系统,用于平衡数据中心内存储设备的任务负载,该系统能够延长存储硬件的使用寿命并帮助数据中心更高效地运行。

为了提高数据中心效率,多个存储设备通常通过网络池化在一起,以便许多应用程序共享它们。但即使采用了池化技术,由于设备间的性能差异,仍有大量设备容量未被充分利用。MIT研究人员现已开发出一个系统,通过同时处理三大主要变异性来源来提升存储设备性能。与传统方法每次只解决单一变异性来源相比,该方法带来了显著的速度提升。

该系统采用两级架构:一个中央控制器负责做出关于每个存储设备执行哪些任务的整体决策;每个机器上的本地控制器则在设备遇到困难时快速重新路由数据。该方法能够实时适应变化的工作负载,且不需要专用硬件。当研究人员在AI模型训练和图像压缩等现实任务上测试该系统时,其性能几乎是传统方法的两倍。通过智能平衡多个存储设备的工作负载,该系统可以提高整体数据中心的效率。

“人们倾向于想投入更多资源来解决问题,但这在很多方面是不可持续的。我们希望最大限度地延长这些非常昂贵且碳排放密集的资源的寿命,”该技术论文的主要作者、电气工程与计算机科学研究生Gohar Chaudhry表示,“通过我们的自适应软件解决方案,在你需要淘汰旧设备并购买新设备之前,仍然可以从现有设备中榨取出大量性能。”

固态硬盘(SSD)是高性能数字存储设备,允许应用程序读写数据。例如,一块SSD可以存储龐大的数据集,并快速将数据发送到处理器进行机器学习模型训练。将多个SSD池化在一起让许多应用程序可以共享,这提高了效率,因为并非每个应用程序在任何时候都需要使用SSD的全部容量。但并非所有SSD性能相同,最慢的设备会限制整个池的整体性能。这些低效问题源于SSD硬件及其执行任务的变异性。

为了利用这些未充分利用的SSD性能,研究人员开发了Sandook —— 一个基于软件的系统,能够同时处理三种妨碍性能的主要变异性类型。"Sandook" 是一个乌尔都语单词,意为“盒子”,象征着“存储”。

第一种变异性类型是由购买时间不同、来自多个供应商的SSD在年龄、磨损程度和容量上的差异造成的。第二种变异性是由于同一SSD上发生的读操作和写操作之间的不匹配引起的。为了向设备写入新数据,SSD必须先擦除一些现有数据。这个过程会减慢同时发生的数据读取速度。第三种变异性来源是垃圾回收,这是一个收集和移除过时数据以释放空间的过程。这个过程会减慢SSD操作,且由数据中心运营商无法控制的随机间隔触发。

“我不能假设在整个部署周期中所有SSD都会表现相同。即使我给它们相同的工作负载,其中一些也会成为落后者,这会损害我能达到的净吞吐量,”Chaudhry解释道。

为了处理所有三种变异性来源,Sandook采用了两级结构。一个全局调度器优化整个池的任务分配,而每个SSD上的更快调度器则对紧急事件做出反应,并将操作从拥塞的设备转移出去。该系统通过轮换应用程序可用于读写的SSD来克服读写干扰造成的延迟。这减少了读和写在同一台机器上同时发生的机会。

Sandook还对每个SSD的典型性能进行了剖析。它利用这些信息来检测垃圾回收何时可能减慢操作。一旦检测到,Sandook通过转移部分任务来减少该SSD的工作负载,直到垃圾回收完成。“如果那个SSD正在进行垃圾回收,无法再处理同样的工作负载,我想给它一个更小的工作负载,并慢慢恢复。我们希望找到它仍在做一些工作的最佳平衡点,并挖掘那部分性能,”Chaudhry说。

SSD性能剖析还允许Sandook的全局控制器以加权方式分配工作负载,考虑每个设备的特性和容量。由于全局控制器能看到全局情况,而本地控制器能即时反应,Sandook可以同时管理发生在不同时间尺度上的变异性形式。例如,垃圾回收造成的延迟是突然发生的,而磨损引起的延迟则是经过数月积累的。

研究人员在10块SSD组成的池上测试了Sandook,并在四项任务上评估了该系统:运行数据库、训练机器学习模型、压缩图像和存储用户数据。与静态方法相比,Sandook将每个应用程序的吞吐量提高了12%至94%,并将SSD容量的整体利用率提高了23%。该系统使SSD能够达到其理论最大性能的95%,而无需专用硬件或特定应用更新。

“我们的动态解决方案可以解锁所有SSD的更多性能,真正将它们推向极限。在这种规模下,你能节省的每一点容量都很重要,”Chaudhry说。

未来,研究人员希望整合最新SSD上可用的新协议,这些协议能给予操作者对数据放置更多的控制权。他们还希望利用AI工作负载中的可预测性来提高SSD操作的效率。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档