如前文所言,数据是刻画这个世界的描述信息,为了更好的复述我们对客观信息的认知,人类发明了文字,更是发明了录音机、照相机、摄像机,信息从眼神的交流、肢体的碰触,到抽象的语言,再到更抽象的文字,再到各种音视频,人类的交流从必须碰面,实现了跨越地域、跨越时空的突破,也从某种意义上来说经历了简单、复杂、抽象、再具体的过程,而数据的存储,就是凡事种种“跨越”的桥梁。
数据的存储在大数据中有多种形态:1)普适性的HDFS,实现了多种文件格式的分布式存储架构,如Hive,直接引用HDFS的avro、parquet、orcfile、text等文件格式,将自身的一套元数据管理构建其上;如HBase,采用HFile,基于HDFS进行存储;此外,包括各种通用的文件类型,都可以在HDFS上进行存储:JSON、XML、二进制等等。2)全文的代表Lucene,如ES,开箱即用的分布式自管理的全文引擎,使用Lucene实现;如Solr,构建在自有磁盘(可以自己管理对应的主机和磁盘)或HDFS之上,通过改造Lucene,适配了HDFS的存储特点实现;如Search等等。3)自有的一些存储,例如Kudu中的RowSets、Mongodb中的Bson、Redis中的KV存储结构等,这些存储结构有一些可以跟传统格式进行相互的导入导出,有一些仅限在特定的存储引擎中。4)其他的格式,包括一些分析模型、音视频系统中的数据存储格式等。
数据的存储需要解决存储、交换、使用的需求,数据特征的保留往往会根据一定规则进行取舍,这就使得大数据的存储百花齐放百家争鸣,正如这个客观的世界。
领取专属 10元无门槛券
私享最新 技术干货