前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pyspark进行词频统计并返回topN

pyspark进行词频统计并返回topN

作者头像
云海谷天
发布2022-08-09 14:37:25
5750
发布2022-08-09 14:37:25
举报
文章被收录于专栏:技术一点点成长

Part I:词频统计并返回topN

统计的文本数据:

代码语言:javascript
复制
what do you do
how do you do
how do you do
how are you
代码语言:javascript
复制
from operator import add

from pyspark import SparkContext


def sort_t():
    sc = SparkContext(appName="testWC")
    data = sc.parallelize(["what do you do", "how do you do", "how do you do", "how are you"])
    result = data.flatMap(lambda x: x.split(" ")) \
        .map(lambda x: (x, 1)). \
        reduceByKey(add). \
        sortBy(lambda x: x[1], False).take(3)
    for k, v in result:
        print k, v


if __name__ == '__main__':
    sort_t()

Part II:调用排序算法并返回topN

样本数据 numbers_data.txt:

代码语言:javascript
复制
15561
112
-40
51467112
234
8561
112
-34
53467111 121
2345 789 34
14561 -21
12112 101 100
-4 23
51467111
2434
15567
132
-14
51467111
237
代码语言:javascript
复制
from pyspark import SparkContext


def solve():
    sc = SparkContext(appName="Sort_test_example")
    lines = sc.textFile("../input/numbers_data.txt")
    results = lines.flatMap(lambda x: x.split(" ")) \
        .map(lambda x: (int(x), 1)) \
        .sortByKey(ascending=False).take(3)
    output = results
    for (key, value) in output:
        print key
    print key


if __name__ == '__main__':

    solve()

注:若出现并列时,返回多个并列的数 

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档