企业案例:分布式存储产品架构性能优化总结 是缝缝补补
假如你需要对一个模块重构?
这个你想到 c++中虚函数,java的接口类。
声明一个基类,子类继承基类,一个子类重写虚函数接口
备注:go rust没有类的概念,更没有继承,用组合代替继承。
除此之外 还需要什么呢?
根据 2025年数据中心(IDC)统计报告 <<IDC专题报告:AIDC周期来临,各厂竞逐份额.pdf>>
近年来,随着云计算、AI、大数据等信息技术的快速发展,数据中心的算力需求呈现出爆发式增长。据华为《智能世界2030》报告预测, 2030年人类将迎来YB数据时代(全球每年新产生的数据总量将达YB级别), 全球通用计算算力将达3.3ZFLOPS(FP32),AI算力需求激增,
数学是体育老教的 ,查缺补漏
大数据存储单位介绍(TB、PB、EB、ZB、YB有多大)
字 | 缩写 | 次方 | 名字 | 缩写 | 次方 |
---|---|---|---|---|---|
kilobyte | KB | 10^3 | kibibyte | KiB | 2^10 |
megabyte | MB | 10^6 | mebibyte | MiB | 2^20 |
gigabyte | GB | 10^9 | gibibyte | GiB | 2^30 |
terabyte | TB | 10^12 | tebibyte | TiB | 2^40 |
petabyte | PB | 10^15 | pebibyte | PiB | 2^50 |
exabyte | EB | 10^18 | exbibyte | EiB | 2^60 |
zettabyte | ZB | 10^21 | zebibyte | ZiB | 2^70 |
yottabyte | YB | 10^24 | yobibyte | YiB | 2^80 |
1 TB = 1,024 GB = 1,048,576 MB |
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB
1 YB = 1,024 ZB
什么是算力?算力的字面意思,大家都懂,就是计算能力(ComputingPower)
OPS (operations per second) 每秒处理次数
**FLOPS(Floating point number operations per second) 每秒处理浮点数次数
TFLOPS(Tera FLOPS) 定义:TFLOPS代表每秒万亿次浮点运算,是GFLOPS的一千倍。它是衡量超级计算机、高端GPU和其他高性能计算设备浮点运算能力的关键指标。
特点:TFLOPS级别的计算能力在科学研究、工程设计、大数据分析等领域具有巨大优势,能够显著加快计算速度和处理效率
ZFLOPS(Zetta FLOPS) 定义:ZFLOPS代表每秒十万亿亿次浮点运算,是EFLOPS的一千倍。它是目前已知最高的浮点运算性能单位之一。
特点:ZFLOPS级别的计算能力代表了未来计算机性能发展的极致方向,但目前尚未有达到该级别的计算系统出现。随着技术的不断进步和创新,未来有可能实现这一性能水平。
AI发展推动算力需求提升,成为当前IDC市场扩张的主要动因。
随着AI的发展,智能算力的需求将成为未来数据中心发展最主要的驱动力
依据应用场景划分,IDC可分为通用型、智算型以及超算型数据中心:
1)通用型数据中心基于CPU芯片服务器提供的算力
2)智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力, 主要用于人工智能和机器学习领域,通过大规模的数据训练模型,来实现智能化应用;
3)由超级计算机等高性能计算集群所提供的算力,主要用于尖端科学领域,如行星模拟、天体物理、基因分析等
❝AI时代背后是强劲的算力需求,而算力的基石则是巨量的能源消耗。 AI算力扩容需要大量电力、产生大量碳排放已是当前不可规避的重要问题
2026年数据中心的电力使用量或将翻倍,达到650-1050TWh之间。 面对全球数据中心能源消耗的急剧增长,各国政府正推动数据中心向绿色、可持续的方向发展,
化石燃料属于不可再生资源,并且污染空气,像国外这个方式是不是修修补补
微软达成超 10 亿美元合作:12 年内处理 490 万吨粪便等有机废物以抵消碳排放
使微软以及其他科技巨头能够抵消数据中心产生的大量碳排放,数据中心因消耗大量电力,而这些电力通常来自于化石燃料。
在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下,智算中心成为地区AI智能新基建。 据IDC数据,地方政府迅速推进智算产业建设,积极构建300-1000 PFLOPS(FP16)规模的大型算力节点
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
中国数据中心运营商因头部企业的资本和规模优势,呈现出向头部企业聚拢的趋势
世纪互联深耕数据中心行业近30年,始终致力于“成为互联网基础设施领域更受尊敬的中国企业”。目前世纪互联在全国30多个城市运营超过50座数据中心,基地型容量超570MW,城市型机柜数量51,960个机柜,端口容量达4T以上,高速云专线超1T,已经成为支撑客户数字化转型的关键力量。
是中国和东南亚领先的高性能数据中心开发商和运营商
参与方 | 市场份额 | 主要客户群 |
---|---|---|
三大运营商 | 52% | 政府/传统企业 |
世纪互联 | 18% | 互联网/外资企业 |
万国数据 | 12% | 云服务商 |
BAT自建机房 | 15% | 内部需求为主 |
世纪互联本质是 “数字地产商+网络连接器” ,在运营商垄断带宽资源和BAT争夺云市场的夹缝中,以 “牌照+地段+中立” 构建不可替代性:
浪潮核心角色为算力设备供应商,不直接参与数据中心市场份额竞争,而是为各类数据中心提供底层算力设施。其市场格局需从服务器供应维度切入
一句话总结,IDC 机房三类 依据应用场景划分,IDC可分为通用型、智算型以及超算型数据中心:
1)通用型数据中心基于CPU芯片服务器提供的算力
2)智算型数据中心基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,
3)由超级计算机等高性能计算集群所提供的算力,**主要用于尖端科学领域,如行星模拟、天体物理、基因分析等
❝未来1年时间内打造下一代HPDA存储产品
对标:https://e.huawei.com/cn/topic/storage/high-performance-data-analytics
据IDC统计,全球67%的高性能计算中心(HPC) 已经在使用AI、大数据相关技术,HPC与AI、大数据加速融合,
走向以数据密集型为典型特征的高性能数据分析HPDA(High-Performance Data Analytics)时代:
自动驾驶、基因测序、精准天气预报等数据密集型应用的爆发, 对数据分析的实时性要求越来越高
产品线 | 技术标杆 | 场景突破 |
---|---|---|
Dorado 全闪存 | 2000万IOPS / 0.05ms时延 | 金融核心/医疗PACS |
Pacific 分布式存储 | EB级扩展 / 全局EC纠删码 | AI训练/4K影视渲染 |
HyperMetro 双活架构 | RPO=0 / RTO<30秒 | 政企跨数据中心容灾 |
Backup 数据保护 | 秒级备份恢复 / 防勒索保险箱 | 制造业/教育数据保 |
2017 年初,首都机场外寒风凛冽, 华为 OceanStor Dorado 首席架构 师张鹏即将只身一人奔赴海外。 |
此刻,他难掩激动之情,OceanStor Dorado全闪存项目的正式通过让他无比 兴奋;而兴奋之余,张鹏内心还有一丝 忐忑,因为他的团队肩负着华为向高端 存储这颗存储皇冠上的明珠发起冲锋的 重任。
2019年7月,华为正式对外推出 了其全新一代OceanStor Dorado全闪 存存储。作为一款由华为存储全球研 发团队历时近三年打造的高端存储产 品,OceanStor Dorado拥有业界最高的 2000万IOPS极致性能,业界最低0.1ms 的稳定时延,
其开创性的SmartMatrix 架构让高端存储稳定性和可靠性再 次迈上一个新台阶, 融入AI芯片则让 OceanStor Dorado引领高端存储智能化 的发展趋势。
❝具体要做三个事情是什么
力维度 | Dorado(集中式全闪存) | OceanStor Pacific(分布式存储) | 胜出方 |
---|---|---|---|
极限性能 | ▶ 2000万 IOPS(0.1ms时延) | ▶ 单集群 320GB/s带宽 | Dorado |
时延 | ▶ 0.1ms(微秒级稳定时延) | ▶ 1~3ms(依赖网络质量) | Dorado |
扩展能力 | ▶ 纵向扩展:8控+4PB | ▶ 横向扩展:4096节点+EB级容量 | Pacific |
大规模并发 | ▶ SAP HANA:200TB+ 强一致性 | ▶ 千节点HPC:百万级IO并发 | 平手 |
数据缩减效率 | ▶ 5:1(全局重删+压缩) | ▶ 3:1(纠删码影响效率) | Dorado |
维度 | Dorado(集中式) | 分布式存储(如OceanStor Pacific) |
---|---|---|
架构拓扑 | 控制器+磁盘柜集中管理 | 无中心节点,多节点协同 |
扩展方式 | 纵向扩展(升级控制器/增加柜) | 横向扩展(添加通用服务器节点) |
时延 | 0.1ms级(硬件加速) | 1ms~10ms(网络依赖性强) |
适用场景 | OLTP、高频交易、虚拟化核心 | 海量非结构化数据、大数据分析 |
对比维度 | 浪潮AS13000G7(分布式) | 华为OceanStor Dorado(集中式全闪存) | 华为OceanStor Pacific(分布式) |
---|---|---|---|
定位场景 | 海量非结构化数据、AI训练、HPDA | 核心数据库、高频交易、虚拟化 | AI数据湖、高性能计算(HPC)、大规模非结构化数据 |
架构特性 | - 全对称分布式架构 - 支持文件/块/对象/大数据协议 | - 多控制器集中式架构(SmartMatrix) - NVMe-oF全协议支持 | - 全对称分布式架构 - 原生多协议无损互通 |
极限性能 | - 单节点带宽:120GB/s(MLPerf测试)- 集群聚合带宽:360GB/s(10客户端) | - 单设备IOPS:400万- 时延:0.03ms(NVMe-oF) | - 单节点带宽:90GB/s- 元数据性能:770万kIOPS(IO500测试) |
扩展能力 | - 最大5120节点- EB级容量 | - 纵向扩展:16控制器- 最大8PiB容量 | - 横向扩展:4096节点- EB级容量 |
能效与密度 | - 未公开具体能效 - 支持混闪/全闪配置 | - 功耗优化(未公开具体值) | - 0.25W/TB(业界最低) - 4PB/2U(超高密度) |
数据缩减率 | - 支持全局重删/压缩(未公开比例) | - 5:1(典型场景) | - 2:1非结构化数据压缩 |
可靠性 | - 数据可用性99.9999%- 支持2-8副本/16+4纠删码 | - 99.99999%可用性 - SAN/NAS/S3一体化双活 | - 全冗余架构 - 支持跨数据中心容灾 |
核心技术 | - iTurbo引擎(小文件聚合、缓存加速)- 内核亲和力调度(内存效率↑400%) | - FlashLink 3.0算法(性能↑50%) - DPU智能网卡(数据流直通) | - SmartBalance全均衡架构- DataTurbo加速引擎(查询效率↑60倍) |
权威认证 | - MLPerf五项冠军(3D-UNet/CosmoFlow场景) | - SPC-1全球TOP3(性价比领先) | - IO500全球榜首(10节点榜单) |
典型应用场景 | - AI训练(单流10GB/s) - 气象卫星(400节点/100PB) | - 证券交易(0.1ms时延) - SAP HANA(200TB+强一致性) | - 基因测序(百PB级数据处理) - 自动驾驶训练 |
❝废话太多 单流10GB怎么做到的
工作组角色 | 职责 |
---|---|
Sponsor | 对整体产品交付负责 |
攻坚组长 | 带领团队完成目标 |
软件经理 | 负责软件目标管理跟进 |
特性组长 | 不同模块需求和设计,例如 mon,mds, osd |
全闪存储引擎 | 全闪存储引擎设计和研发 |
内核客户端 | 支持spdk协议 |
网络 | 负责 RDMA 网络开发 |
硬件 | 负责整体硬件设计和开发 |
测试 | 负责整体测试设计 |
客户代表 | 实施方案和拉通 |
项目发起人 关键相关方,负责项目章程
关键相关方 零其满意
项目章程
什么是项目章程
模板
项目构想举例
英文:
基于《敏捷宣言》(Agile Manifesto)的官方定义整理: