云+AI的智能时代已经到来,计算存储融合的大数据架构由于存在计算存储不能灵活扩展、不同大数据集群间资源利用率不均且数据无法共享、三副本存储利用率低且无法和AI应用高效联动等问题,已经无法满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋。
OceanStor分布式存储存算分离方案
在这种背景下,华为OceanStor分布式存储及大数据存算分离方案应运而生。华为大数据存算分离方案中,以OceanStor分布式存储替换Hadoop中的HDFS存储,计算节点和存储节点分别组成独立的资源池,这样就能够实现计算资源和存储资源的灵活扩展,计算不足扩计算,存储不足扩存储,把计算和存储资源的能力都充分发挥出来,有效避免资源的浪费。存储资源使用统一的资源池,还能够打破之前的烟囱化架构,实现多种大数据应用间的数据高效共享,提升多种应用间的协同分析效率。
除了计算存储分离架构带来的方案性优势,OceanStor分布式存储还有哪些独特优势来适配云+AI时代的大数据存储需求呢,下面我们就来具体看一下:
分布式NameNode,消除系统性能瓶颈
OceanStor分布式存储架构
传统HDFS存储只有主备两个NameNode,所有的数据访问均需要先访问主
NameNode,获取数据的元数据信息后,才能访问对应的DataNode进行数据读写,这就导致主NameNode会成为性能和可靠性的瓶颈;另一方面,单个NameNode受限于服务器内存,最大仅能支持1.5亿左右的文件,这就限制了单个HDFS集群的规模。
OceanStor分布式存储基于全对称分布式架构,每个存储节点都能同时作为NameNode和DataNode使用,能够线性扩展到最大4096个节点,NameNode不再是性能和文件数的瓶颈;基于EC算法,OceanStor分布式存储存储单个故障域最大可容忍4个节点故障而不影响业务运行,很大程度上提升了系统的可靠性。正是基于这种分布式NameNode架构,OceanStor分布式存储才能以高扩展的统一存储资源池支撑多种大数据应用。
多租户能力,助力统一存储资源池构建
多种大数据应用共享统一存储资源池的情况下,如何实现多种应用访问的逻辑隔离和性能保障是一个关键的问题。OceanStor分布式存储支持创建多个namespace来对接多种大数据应用,每个namespace可使用独立的鉴权,从而支持不同应用间的鉴权隔离。OceanStor分布式存储中,多个namespace之间的数据是逻辑隔离的,不同的namespace还可以设定配额和Qos(Quality of Service)策略,从而保障多种应用可使用的空间和性能都是可灵活调配,且不会互相影响的,真正将存储资源池能力发挥出来。
弹性EC,存储利用率大幅提升
仅仅是存储和计算分离,能够带来灵活扩展和数据共享的优势,但要说到降低TCO,还要凭借OceanStor分布式存储的弹性EC能力。
OceanStor分布式存储弹性EC
传统HDFS存储多使用三副本方式进行数据保护,存储利用率仅33%;OceanStor分布式存储采用了EC算法进行数据保护,和三副本可靠性相当的+2冗余下,最大可支持22+2的EC,存储利用率可达91%,相比三副本方式提升了1.75倍。
相比HDFS 3.0推出的HDFS EC, OceanStor分布式存储EC能够完全兼容所有HDFS语义,没有不支持append, truncate, hflush, fsync等诸多接口的限制;OceanStor分布式存储EC的性能和HDFS三副本基本持平,可应用于热、温、冷存储多种场景,无场景限制;OceanStor分布式存储高达91%的存储利用率、节点故障场景的不降级写、2TB/小时以上的高速数据恢复,在使用效率和系统可靠性方面也领先很多。
原生HDFS接口,无需插件,100%兼容主流大数据平台
既然计算和存储分离架构有诸多的好处,为什么市面上有竞争力的存算分离产品并不多呢?最主要的原因就是很难做到HDFS效率和HDFS兼容性兼得。
原生HDFS存储兼容性很好,但三副本的存储效率很低,使用HDFS EC又会导致性能和兼容性存在问题;基于S3A接口的对象存储多支持EC算法,存储效率还可以,但S3A接口不支持append、flush()、hflush()等接口,还需要在计算侧安装S3A的插件,兼容性和可维护性都较差,经过协议转换后性能也不理想。
OceanStor分布式存储对外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks等主流大数据平台,无需在计算侧安装任何插件,无需上层应用修改任何代码即可使用。更近一步的,OceanStor分布式存储可以在现网Hadoop计算融合一体方案的基础上直接扩容,让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。
多协议互通,提升融合场景大数据分析效率
云+AI的智能时代,大数据分析和AI训练、推理融合的需求越来越多,传统的大数据存储仅能提供HDFS接口用于大数据分析,分析的结果如果要进行AI训练,就需要把数据拷贝到其他存储中处理,导致数据分析的整体效率低下,同时也浪费了存储空间。
OceanStor分布式存储既能提供HDFS接口用于大数据分析,又能提供文件接口用于AI训练和推理,大数据分析结果可直接通过文件接口访问,无需拷贝和等待,很大程度上提升了融合场景的大数据分析效率。
小结:
云+AI的智能时代已经到来,传统的大数据架构已经很难满足云+AI时代的数据分析需求,计算跟存储分离已成为大势所趋,OceanStor分布式存储以弹性EC、原生HDFS接口、多租户、协议互通等专业存储能力,助力客户更好的解决数据爆炸性增长带来的成本、可靠性、分析效率、运维等问题。
领取专属 10元无门槛券
私享最新 技术干货