近年来,大数据旋风以“迅雷不及掩耳之势”席卷全球。根据IBM公司的调查报告,全球每天创造2.5EB字节的数据(即10亿千兆字节)。有研究称,整个人类文明所获得的全部数据量,有90%是最近两年内产生的。随着互联网的快速发展,预计通过网路产生的数据量还将呈几何级增长。庞大的数据资源蕴藏着无限的宝藏,过去的一年无论是企业、政府还是媒体,都在进军大数据,准备在其中逐得一席之地。
随之而来的是大数据领域涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。
1、大数据接入
大数据接入:数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入。常用的技术有Kafka、ActiveMQ、ZeroMQ、Flume、Sqoop、Socket(Mina、Netty)、ftp/sftp 。
2、大数据存储
大数据存储:结构化数据存储、半结构化数据存储、非结构化数据存储。常用的技术有Hdfs、Hbase、Hive、S3、Kudu、MongoDB、Neo4J 、Redis、Alluxio(Tachyon)、Lucene、Solr、ElasticSearch。
3、大数据分析挖掘
大数据分析与挖掘:离线分析、准实时分析、实时分析、图片识别、语音识别、机器学习。常用的技术有MapReduce、Hive、Pig、Spark、Flink、Impala、Kylin、Tez、Akka、Storm、S4、Mahout、MLlib。
4、大数据共享
大数据共享:数据接入、数据清洗、转换、脱敏、脱密、数据资产管理、数据导出。常用的技术有Kafka、ActiveMQ、ZeroMQ、Dubbo、Socket(Mina、Netty)、ftp/sftp、RestFul、Web Service。
5、大数据展现
大数据展现:图化展示(散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱线图、热力图、关系图、矩形树图、平行坐标、桑基图、漏斗图、仪表盘),文字展示。常用的技术有Echarts、Tableau。
经过各项技术的发展以及市场推动,大数据项目的部署数量越来越多,但大数据项目的成功落地并不是那么容易。在大数据应用中面临着数据质量、数据模型、数据安全及隐私保护等问题的挑战。
一、数据质量问题。几乎所有大数据项目,都会通过各种技术手段和非技术手段保证所获取数据的质量,以保证数据源的广泛性、数据类型的多样性,并满足大数据项目对数据进行积累沉淀的基本要求。由于各种客观原因,来自各种渠道的数据并不总是高质量数据,如果使用质量不高的数据进行挖掘分析,其结果基本是不可信的,甚至会起到误导作用,进而导致大数据项目失败。
二、数据模型问题。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
三、数据安全问题。大数据项目所获取的数据往往携带大量的隐私信息。这些信息既有个人信息,也有政府机构、组织、公司的信息。当前业界各方隐私保护的意识都在增强,甚至很多国家把隐私保护提高到法律的高度加以规范,在这样的大背景下,大数据项目必须对数据安全和隐私保护给予足够重视,并通过技术手段和管理措施两方面加以保障。组织单位在大数据基础设施与企业应用程序的连接方面要有全面的预见能力和安全把控能力。
大数据已渗透到各行各业,对经济发展、社会治理、国家管理、人民生活都产生着重大影响。如何有效解决大数据技术在发展和应用中存在的问题,使其发挥更大的价值,成为大数据时代业界思考的关键问题。
领取专属 10元无门槛券
私享最新 技术干货