2018年1月17日直播回顾

文章来源：企鹅号 - 容大教育

2018年1月17日职场技能拓展大数据系列直播第二场完满收官，陈凯（Kian）老师在这场直播中主要为大家介绍了分布式数据存储HDFS，分布式数据计算MapReduce,生动案例教大家如何统计莎士比亚文集Top10单词，以及基于SQL框架Hive对搜狗用户搜索行为进行分析。

干货满满，好多0基础的小伙伴听了之后都直呼涨姿势。错过直播好可惜？没关系，奶总在这给大家回顾一下昨天Kian老师直播中的亮点。闲话少叙，好戏开始！

1. 数据分析（挖掘）几类工具及应用场景

对数据分析与挖掘，在不同情况，应用场景下选取的工具有所不同，数据量小，业务不复杂，一个Excel足以解决，Kian老师举了一个简单的栗子，用Excel数据透视表统计了泰坦尼克号船舱人数分布情况。

什么时候会用到Python数据分析呢？很通俗的讲，在数据量小，业务稍微复杂的情况下，但又需要将统计结果进行展示，如Excel自带展示效果无法直观表示的时候，Python就上场了哦，比如说下图，就是前端时间微博爆点话题#李小璐#事件，用Python爬虫抓取新浪微博，形成词云。

当涉及当预测一些数据的时候，比如说预测房价，这就会因为业务较复杂涉及到一些机器学习的算法。

2. 大数据必会数据处理技术

提到大数据，不得不说的是两种处理数据的技术名称，一个叫Hadoop，一个叫做Spark，Hadoop开始于2008年，Spark开始于2014年。虽然目前大数据+（全栈）概念比较流行，但其可以说是起源于搜索，发展于电商，普及于全民。Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。以海量数据为前提，可以数据存储到多台电脑进行分布式存储，数据分析处理到多台电脑上，分布式并行计算分析。

3. 分布式存储计算技术

4. 莎士比亚Top10单词抓取

首先，进入opt目录、datas数据目录然后清屏：

清屏以后，进入modules安装软件目录，可以看到已经有hadoop、hive和jdk3个软件。然后键入两个命令：

然后我们克隆一个渠道，因为我们是要统计莎士比亚的前十个词汇，所以打开这个文件的前10行测试一下：

那要如何统计呢？我们先打开之前建的第一个文件，要做的就是把这个《莎士比亚文集》电子书放到这个文件里面：

然后就统计好了，是不是十分简单？

但是我们会发现这个结果不是很完善，里面有很多重复单词。是因为在执行这个命令的时候，用到而是Hadoop自带的程序。最常用的分析数据的框架为HIVE。

5.HIVE：更便捷的数据统计工具

对于HIVE来说，（尤其是SQL查询分析语法）非常类似MySQL数据库语言：

我们就使用HIVE来操作试试：

发表于: 2018-01-182018-01-18 18:23:33
原文链接：http://kuaibao.qq.com/s/20180118A0POPE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

2018年1月17日直播回顾

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐