No.71
单词出现行计数
Mr. 王 :我们可以试试用 Python 终端来实现一个最简单的功能——单词出现行计数。
首先创建一个文件,在里面写一段话。
小可 :我就在 Spark 文件夹里写一个名为 HelloWorld 的文件吧!
Mr. 王 :好,我们现在就让 Spark 来执行一个在文本处理中非常简单却非常常用的功能。
首先求出整个文本文件有多少行,然后求出有某个关键词出现的行数,为进行其他处理打下基础。
首先加载 HelloWorld 文件,使用命令 :
程序会有一些输出,显示程序的运行情况。
然后通过查看文件的第一行,看看是不是正确地加载了这个文件。输入下面的命令 :
小可 :嗯,程序输出结果的最后一行显示了 Hello World !。对照我之前输入的文件来看,这的确是文件的第一行。
Mr. 王 :现在可以尝试用它来统计行数了。
小可 :最后显示出了正确的结果!在一些运行情况信息后面,显示了一个 4,这个 4 就是行数的统计结果吧?也就是说,HelloWorld 文件有 4 行,这和我之前输入的文件是相符的。
Mr. 王:下面可以执行最后一步了,使用 filter 和 count 函数来实现最后的功能。使用命令:
程序的执行结果如下 :
小可 :最后这个 2 表示的就是出现过 Spark 的行数有两行吧?
小可对照了一下前面写过的 HelloWorld 文件。
小可 :没错,结果是对的!的确有两行出现过 Spark 这个词!
Mr. 王 :好了,我们想要实现的一个简单功能完成了。执行到这里,可以在单机上运行的Spark 平台就已经搭建好了。不难比较出,我们使用 Spark 的单机模式基本上没有进行过配置,而且实现一些基本的文本处理功能是几乎不需要任何程序设计的,只要简单地使用一些命令或者只有一行的程序,就可以完成我们在 Hadoop 中需要几十行代码才能实现的功能,体现了它的使用是非常的简便容易的。
小可 :是啊,实现这个功能只用了 3 ~ 5 行代码,的确非常的方便啊。
Mr. 王 :我们休息一下,退出 Spark-Shell。
小可疑惑不解地说 :咦?“Ctrl+C”快捷键为什么不好使了?
Mr. 王 :哦,Python 的 PySparkShell 的快捷键不太一样,要使用“Ctrl+D”快捷键关闭它。关闭之后,Spark 还会停止一些内存和块的管理程序,程序会输出一些信息 :
如果重新出现了 Shell 提示符,则说明我们已经成功地退出了 Spark。
下期精彩预告
经过学习,我们研究了单词出现行计数涉及到的一些具体问题。在下一期中,我们将进一步了解在 Spark 上实现 WordCount的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!
文章作者:王宏志
文章编辑:天天
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有