2018年1月17日 职场技能拓展大数据系列直播第二场完满收官,陈凯(Kian)老师在这场直播中主要为大家介绍了分布式数据存储HDFS,分布式数据计算MapReduce,生动案例教大家如何统计莎士比亚文集Top10单词,以及基于SQL框架Hive对搜狗用户搜索行为进行分析。
干货满满,好多0基础的小伙伴听了之后都直呼涨姿势。错过直播好可惜?没关系,奶总在这给大家回顾一下昨天Kian老师直播中的亮点。闲话少叙,好戏开始!
1. 数据分析(挖掘)几类工具及应用场景
对数据分析与挖掘,在不同情况,应用场景下选取的工具有所不同,数据量小,业务不复杂,一个Excel足以解决,Kian老师举了一个简单的栗子,用Excel数据透视表统计了泰坦尼克号船舱人数分布情况。
什么时候会用到Python数据分析呢?很通俗的讲,在数据量小,业务稍微复杂的情况下,但又需要将统计结果进行展示,如Excel自带展示效果无法直观表示的时候,Python就上场了哦,比如说下图,就是前端时间微博爆点话题#李小璐#事件,用Python爬虫抓取新浪微博,形成词云。
当涉及当预测一些数据的时候,比如说预测房价,这就会因为业务较复杂涉及到一些机器学习的算法。
2. 大数据必会数据处理技术
提到大数据,不得不说的是两种处理数据的技术名称,一个叫Hadoop,一个叫做Spark,Hadoop开始于2008年,Spark开始于2014年。虽然目前大数据+(全栈)概念比较流行,但其可以说是起源于搜索,发展于电商,普及于全民。Hadoop是一个能够对大量数据进行分布式处理的软件框架。 以一种可靠、高效、可伸缩的方式进行数据处理。以海量数据为前提,可以数据存储到多台电脑进行分布式存储, 数据分析处理到多台电脑上,分布式并行计算分析。
3. 分布式存储计算技术
4. 莎士比亚Top10单词抓取
首先,进入opt目录、datas数据目录然后清屏:
清屏以后,进入modules安装软件目录,可以看到已经有hadoop、hive和jdk3个软件。然后键入两个命令:
然后我们克隆一个渠道,因为我们是要统计莎士比亚的前十个词汇,所以打开这个文件的前10行测试一下:
那要如何统计呢?我们先打开之前建的第一个文件,要做的就是把这个《莎士比亚文集》电子书放到这个文件里面:
然后就统计好了,是不是十分简单?
但是我们会发现这个结果不是很完善,里面有很多重复单词。是因为在执行这个命令的时候,用到而是Hadoop自带的程序。最常用的分析数据的框架为HIVE。
5.HIVE:更便捷的数据统计工具
对于HIVE来说,(尤其是SQL查询分析语法)非常类似MySQL数据库语言:
我们就使用HIVE来操作试试:
领取专属 10元无门槛券
私享最新 技术干货