最近在看关于大数据、数据仓库、数据架构的《数据架构:大数据、数据仓库以及DataVault》一书,关于大数据有些思考,结合BI分布式引擎(Spider引擎),可以谈谈BI分布式引擎(Spider引擎)对于大数据的阐释,以及在大数据平台架构中,可以处于什么样的位置。大数据一直被定义为3W(数量大,速度快,多样性),但这些特征用于描述高速公路上运载的各种货物也没有问题。
为了支持数据分析服务的正常运行,具有敏捷数据集市的BI工具也必须与时俱进。即使不是为了长期考虑,也需要尽快解决当前的快速显示问题。在许多方面,FineBI及其自己的BI分布式引擎(Spider引擎)用于解决大数据显示分析的问题。FineBI是一种自助式分析工具,可在功能上将数据准备与业务数据分析分开。
让我们回到主题,看看BigBI的分布式引擎(Spider引擎)对大数据分析的解释。FineBI分布式引擎(SpiderEngine)基于大数据组件,如ALLUXIO,SPARK和HDFS。它结合了自行开发的高性能算法,解决了大数据量分析和性能的问题。柱状存储,并行存储器计算,计算本地化和高性能算法确保了FineBI中的快速数据分析。
(1)在大数据量的存储上,首先,它面临大量的数据存储。要返回到先前的定义,它需要具有廉价的存储方法,可以存储非结构化数据,并且可以执行分布式计算。首先想到了Hadoop中的分布式文件系统--HDFS。HDFS的稳定性和容错机制相对完整。在Hadoop2.X版本之后,支持HA支持,并且可以全年存储存储数据。
(2)在存储方面,Hadoop的HDFS实现了分布式存储,其自身的MapReduce计算性能不足,无法以标准格式连接外部应用程序。SQLOnHadoop应运而生。它有很多种,impala,SparkSQL,hive等都是众所周知的。但是,选择哪种方法并不重要,每个人的起点必须能够在大数据量的情况下实现并行分布式计算。
领取专属 10元无门槛券
私享最新 技术干货