首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。

对于一个企业大数据应用来说,搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS,Hadoop最先开始设计的就是HDFS,可见分布式存储的重要性,整个大数据生态计算框架多种多样,但是大数据的存储却没有太大的变化,HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点,一些对象存储等技术的出现给HDFS的地位带来了挑战,但是HDFS目前还是最重要的大数据存储技术,新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性,那么HDFS是如何去解决大数据存储、高可用访问的了?

02

主流大数据存储解决方案评析

大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。 通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。 EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。 EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。 杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。 EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。

03

基于区块链与大数据构建共享经济基石

导读:将区块链技术或者其采用的算法证明机制引入共享经济,可以建成一个完全透明、无主、分散的共享平台和系统。能在没有任何形式中介的情况下,保证各种交易方安全进行交易,这些交易方包括个人、企业甚至是政府。区块链有可能成为共享经济或者互联网的基石,在未来,区块链会上升到数据治理和经济治理层面,从而极大地改变经济模式,改变我们整个世界的生产和运营模式。且随郭树行博士一起了解一下基于区块链与大数据如何构建共享经济基石。 ▌区块链与大数据的发展差距 大数据,需要应对海量化和快增长的存储,这要求底层硬件架构和文件系统在性

09

宜信、度小满、太平洋保险、平安银行分享金融业数字化转型的技术实践 | ArchSummit

金融领域数字化转型是指金融行业利用新兴技术,如人工智能、区块链、云计算、大数据等,对传统金融业务进行重构和升级,以提高金融业务的效率、降低成本、提升客户体验等。金融行业的数字化转型意味着业务重塑,从技术手段到实际运用整个流程都将发生巨变。在这些变化过程中,我们应该如何做出应对以及变化? 在 ArchSummit 全球架构师峰会(上海站),我们设置了【金融业数字化转型探索】专题,邀请陆金所技术总监朱益盛担任专题出品人,为专题内容质量把关。在此专题下,我们一共有四场分享,以下是详细介绍: 首先,我们邀请了宜信运

03

紫晶存储苏健:蓝光光盘打开「冷数据存储」市场,手握核心技术覆盖全产业链 | 镁客·请讲

存储发展百花齐放,光存储带来新思路。 作者 | 来自镁客星球的家衡 各行各业的数据量暴增,早已成为有目共睹的现实。 据知名研究机构IDC的报告显示,受物联网(IOT)、人工智能、5G、云计算、自动驾驶等新兴技术的影响,全球数据的信息量将在2025年将达到11ZB,近乎2022年数据信息量的两倍之多。 然而海量数据之下,很大一部分数据都属于访问频度较低的“冷数据”。科技巨头Facebook曾对后台数据进行访问分析,结果显示82%的访问都集中在近三个月内产生的8%的新数据上,而旧数据则会迅速“变冷”。 面对这些

02

主流大数据系统在后台的层次角色及数据流向

最近有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后才能得出比较客观的结论。 大数据是一个比较宽泛的概念,它包含大数据存储和大数据计算,其中大数据计算可大致分为计算逻辑相对简单的大数据统计,以及计算逻辑相对复杂的大数据预测。下面分别就以上三个领域简要分析一下:第一,大数据存储解决了大数据技术中的首要问题,即海量数据首先要能保存下来,才能有后续的处理。因此大数据存储的重要性是毫无疑问的。第二,大数据统计是对海量

07

腾讯云大数据技术介绍-云 HDFS

大数据虽然是一个比较宽泛的词,但对于我们来说其实可以简单理解为“海量数据的存储与处理”。之所以人们专门大数据这个课题,是因为海量数据的处理和较小量级数据的处理是不一样的,例如我们对一个mysql表中的数据进行查询,如果是100条数据,那对于mysql来说毫无压力,但如果是从十亿条数据里面定位到一条呢?情况就变得复杂了,换个角度想,十亿条数据是否适合存在mysql里也是尚待讨论的。实时上从功能角度的出发,我们完全可以使用以往的一些技术栈去处理这些问题,只不过高并发高可用高实时性这些都别想了。接下来要介绍的这些腾讯大数据组件就是在这一个问题背景下一个个诞生的。

012
领券