Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >NLTK FreqDist

NLTK FreqDist

作者头像
全栈程序员站长
发布于 2022-11-15 09:31:25
发布于 2022-11-15 09:31:25
29800
代码可运行
举报
运行总次数:0
代码可运行

FreqDisk

nltk FreqDisk函数能够统计数组当中单词出现的次数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
text = ['hadoop','spark','hive','hadoop','hadoop'
    ,'spark','lucene','hadoop','spark','hive'
    ,'hadoop','hadoop','spark','pig','zookeeper'
    ,'flume','stream','hadoop','hadoop','spark'
    ,'pig','zookeeper','flume','stream','hadoop'
    ,'hadoop','spark','pig','zookeeper','flume'
    ,'stream','hadoop','hadoop','spark','pig'
    ,'zookeeper','flume','stream','hadoop','hadoop'
    ,'spark','pig','zookeeper','flume','stream']
fdist = nltk.FreqDist(text)
for k in fdist:
    print(k+" "+str(fdist[k]))

Jetbrains全家桶1年46,售后保障稳定

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop 14
spark 8
hive 2
lucene 1
pig 5
zookeeper 5
flume 5
stream 5

FreqDisk::plot(n)

参数n,以折线图的方式展示频数最大的前n项数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fdist.plot(4)

FreqDisk::tabulate(n)

参数n,以表格的方式展示频数最大的前n项数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fdist.tabulate(5)

FreqDisk::most_common(n)

参数n,展示频数最大的前n项数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(fdist.most_common(3))
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[('hadoop', 14), ('spark', 8), ('pig', 5)]

FreqDisk::hapaxes()

展示频数最小的数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(fdist.hapaxes())
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
['lucene']

FreqDisk::max()

展示频数最大的数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(fdist.max())
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/226787.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月30日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NLP自然语言处理002:NLTK中的语料和词汇资源
import nltk 直接获取语料库的所有文本:nltk.corpus.gutenberg.fileids()
李玺
2021/11/22
6720
NLP自然语言处理002:NLTK中的语料和词汇资源
NLTK-007:分类文本(文档情感分类)
之前我们看了几个例子,那里文档已经按类别标记。使用这些语料库,我们可以建立分类器。自动给新文档添加适当的类别标签。 首先我们构造一个标记了相应类别的文档清单,对于这个例子,我选择了nltk中的电影评论语料库,将每个评论分为正面或者负面。
李玺
2021/11/22
4090
NLTK-007:分类文本(文档情感分类)
Hadoop生态圈各种组件介绍
好多初入学习大数据的人不是很清楚,今天分享一个图,并介绍一下大致的组件,其他还有一些组件是没有包含在其中的,但是大部分这个图片是有了的。
全栈程序员站长
2022/08/31
2.1K0
Hadoop生态圈各种组件介绍
hadoop生态圈相关技术_hadoop的生态
  最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又衍生了子项目Hadoop。Lucene是一个功能全面的文本搜索和查询库,Nutch目标就是要试图以Lucene为核心建立一个完整的搜索引擎,并且能达到提到Google商业搜索引擎的目标。网络搜索引擎和基本文档搜索区别就在规模上,Lucene目标是索引数百万文档,而Nutch应该能处理数十亿的网页。因此Nutch就面临了一个极大的挑战,即在Nutch中建立一个层,来负责分布式处理、冗余、故障恢复及负载均衡等等一系列问题。
全栈程序员站长
2022/11/17
7930
hadoop生态圈相关技术_hadoop的生态
NLTK-004:加工原料文本
所以假设获取到了内容。变量raw是这本书原始的内容,包括很多我们不感兴趣的细节,如空格、换行符和空 行。请注意,文件中行尾的\r 和\n,是 Python 用来显示特殊的回车和换行字符的方式
李玺
2021/11/22
5860
NLTK-004:加工原料文本
【大数据】最新大数据学习路线(完整详细版,含整套教程)
大家好,又见面了,我是你们的朋友全栈君。 大数据学习路线 java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,spark sql,spark streaming,spark
全栈程序员站长
2022/06/28
5740
Hadoop生态系统-一般详细
首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。
全栈程序员站长
2022/08/31
1.1K0
大数据Hadoop生态圈各个组件介绍(详情)
-coordination and management(协调与管理) -query(查询) -data piping(数据管道) -core hadoop(核心hadoop) -machine learning(机器学习) -nosql database(nosql数据库)
全栈程序员站长
2022/08/31
5K0
大数据Hadoop生态圈各个组件介绍(详情)
NLTK相关知识介绍
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
村雨遥
2019/09/09
6470
NLTK相关知识介绍
Hadoop体系_集团架构
自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Window、Linux、Java一样,它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中,如Facebook、Yahoo等,围绕大数据Hadoop技术产生了一系列大数据的相关技术
全栈程序员站长
2022/11/03
1.1K0
Hadoop体系_集团架构
如何卸载CDH7.1.1
在主节点使用命令:systemctl stop cloudera-scm-server 停止服务
soundhearer
2020/10/15
1K0
如何卸载CDH7.1.1
NLTK-005:分类和标注词汇
之前大家也肯定学过名字、动词、形容词、副词之间的差异,这些词类不是闲置的,而是对许多语言处理任务都有用的分类,正如我们将看到的,这些分类源于对文本中词的分布的简单的分析。
李玺
2021/11/22
6240
NLTK-005:分类和标注词汇
NLP自然语言处理001:NLTK入门
准备写一个系统的nlp入门博客,就从 nltk 开始把。 NLTK:Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
李玺
2021/11/22
7230
NLP自然语言处理001:NLTK入门
词频统计与TF-IDF
TF-IDF (Term Frequency-nversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。计算方法如下面公式所示:
MinChess
2022/12/27
8240
词频统计与TF-IDF
【赵渝强老师】Hadoop生态圈组件
它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。
赵渝强老师
2024/08/12
1410
【赵渝强老师】Hadoop生态圈组件
Hadoop生态系统简介
Hadoop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、ZooKeeper、Mahout、Spark、Storm、Shark、Phoenix、Tez、Ambari。
全栈程序员站长
2022/08/31
2.6K0
HADOOP生态圈知识概述
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。
全栈程序员站长
2022/08/31
2.6K0
HADOOP生态圈知识概述
Hadoop 生态系统的构成(Hadoop 生态系统组件释义)
现在先让我们了解一下 Hadoop 生态系统的构成,主要认识 Hadoop 生态系统都包括那些子项目,每个项目都有什么特点,每个项目都能解决哪一类问题,能回答这三个问题就可以了(本段属于热身…重在理解 Hadoop 生态系统组成,现状,发展,将来)。
全栈程序员站长
2022/08/26
9070
Hadoop 生态系统的构成(Hadoop 生态系统组件释义)
hadoop生态圈详解
学习和使用hadoop有一年了,这里主要分享一下对hadoop整体上的理解,分门别类的介绍一下相关组件,最后提供了建议的学习路线,希望对hadoop的初学者有参考作用。
全栈程序员站长
2022/08/31
1.1K0
hadoop生态圈详解
大数据开发的工具有哪些?
作为一个大数据开发人员,每天要与使用大量的大数据工具来完成日常的工作,那么目前主流的大数据开发工具有哪些呢?
全栈程序员站长
2022/07/23
2.4K0
相关推荐
NLP自然语言处理002:NLTK中的语料和词汇资源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验