Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用 Python 分析领导讲话,原来隐藏了 "这些" 重要信息......

用 Python 分析领导讲话,原来隐藏了 "这些" 重要信息......

作者头像
崔庆才
发布于 2021-10-08 08:03:04
发布于 2021-10-08 08:03:04
81100
代码可运行
举报
文章被收录于专栏:进击的Coder进击的Coder
运行总次数:0
代码可运行

如何用 Python 分析领导讲话呢?正好庆祝中国共产党成立 100 周年大会,7 月 1 日上午在北京天安门广场隆重举行。中共中央总书记、国家主席、中央军委主席习近平发表重要讲话。

这段讲话,共 14 页 word 排版,7297 个字。

你全程观看了直播吗?关于这场重要讲话,习总书记主要传达了那些精神,你知道吗?

今天我就带着大家来学习一下本次大会的精神。大家可以学习后用来分析自己的领导讲话哦~

这段话的 word 版本,是我无意中在某个微信群里面发现的,是以.doc结束老版本的 word 文档格式,截个图给大家看看:

我们今天的任务就是:读取这段文字,对文字做一个关键词统计,看看这次大会主要传达了哪些重要精神。

当然,这篇文章一共涉及到如下三方面重要的知识,分别是:

  • ① doc 文章格式转换为 docx 格式;
  • ② Python 自动化操作 word 文档相关操作;
  • ③ jieba 中文分词库的应用;

这三个操作,在实际工作应用中经常遇到,都是很重要的 Python 知识点,我们将它们应用到一个实战案例中讲解,学习起来会事半功倍。

PS:不要单纯只学习某个知识点,带着应用学习;

1. doc 文档格式转 docx 格式

后面读取 word 文档中的文字,会用到一个叫做python-docx的库,它只能读取.docx格式的 word 文档。

但是你不要企图,直接修改文档后缀,那样的话,你打开文档,会提示格式错误。

因此,在正式获取 word 文档中的内容之前,必须要进行一下格式转换。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os
import time
import win32com
from win32com.client import Dispatch

def doc_to_docx(path):
   w = win32com.client.Dispatch('Word.Application')
   w.Visible = 0
   w.DisplayAlerts = 0
   doc = w.Documents.Open(path)
   # 这里必须要绝对地址,保持和doc路径一致
   newpath = allpath+'\\转换后的文档_庆祝中国共产党成立100周年大会上的讲话.docx'
   time.sleep(3) # 暂停3s,否则会出现-2147352567,错误
   doc.SaveAs(newpath,12,False,"",True,"",False,False,False,False)
   # doc.Close() 开启则会删掉原来的doc
   w.Quit()# 退出
   return newpath
allpath = os.getcwd()
print(allpath)
doc_to_docx(allpath+'\\庆祝中国共产党成立100周年大会上的讲话.doc')

结果如下:

下面两行代码的意思,了解就行。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 调用word程序
WordApp = win32com.client.Dispatch("Word.Application")

# 后台运行,不显示,不警告
WordApp.Visible = 0
WordApp.DisplayAlerts = 0

2. python-docx 读取 word 文档内容

在使用 Python 读取 word 文档内容之前,我们首先需要对 word 文档结构有一个清楚的认识,在没有图表的情况写,word 文档主要由文档 - 段落 - 文字块三部分构成。

读取 word 文档内容的大致思路是这样的:

  • ① 获取 word 文档,就是得到一个 Document 对象;
  • ② 调用 Document 对象的 paragraphs 方法,获取 Paragraph 段落对象列表;
  • ③ 循环遍历段落对象列表,调用 text 方法,获取每个段落中的整段文字;

按照这个逻辑,其实代码非常简单,5 行代码即可获取文档内容。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from docx import Document

doc = Document(r"转换后的文档_庆祝中国共产党成立100周年大会上的讲话.docx")
text = ""
for parapraph in doc.paragraphs:
    text += parapraph.text

部分截图如下:

这里定义了一个字符串 text,将读取到的内容,拼接成一个字符串,是为了方便我们后续使用jieba库进行分词操作。

3. jieba中文分词库的应用

前面我们将word文档中所有的内容,全部转换为一个超长的字符串了,接下来就是应用jieba库,进行中文分词,做一个词频统计。

下面直接一步步带着大家做吧!

① 导入相关库

在这里,你需要什么库,就导入什么库。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import jieba
from wordcloud import WordCloud
import pandas as pd
import matplotlib.pyplot as plt
from imageio import imread

import warnings
warnings.filterwarnings("ignore")
② 使用 jieba 库中的 lcut() 方法进行分词

短短的一行代码,很简单。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
text_list = list(jieba.cut(text))

在进行分词之前,我们可以动态修改词典,让某些特定词语不被强制性分开。我这里介绍一下,大家下去自己学习。

  • jieba.add_word() 方法,只能一个个动态添加词语;
  • 假如我们需要动态添加多个词语的时候,就需要使用 jieba.load_userdict() 方法。也就是说:将所有的自定义词语,放到一个文本中,然后使用该方法,一次性动态修改词典集;
③ 读取停用词,添加额外停用词,并去除停用词

读取停用词,采用 split() 函数切分后,会得到一个停用词列表。接着,采用+号将额外停用词,添加到列表中即可。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open(r"stoplist.txt",encoding="utf-8") as f:
    stop = f.read()
    
stop = stop.split()
stop = [" "] + stop
final_text = [i for i in text_list if i not in stop]
④ 词频统计

这里使用Pandas库中 series 序列的 value_counts() 函数,进行词频统计。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
word_count = pd.Series(final_text).value_counts()[:30]

部分截图 如下:

⑤ 词云图的绘制
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 1、读取背景图片
back_picture = imread(r"aixin.jpg")

# 2、设置词云参数:这些参数,大家看英文单词的含义,应该可以猜出来!
wc = WordCloud(font_path="simhei.ttf",
               background_color="white",
               max_words=2000,
               mask=back_picture,
               max_font_size=200,
               random_state=42
              )
wc2 = wc.fit_words(word_count)

# 3、绘制词云图
plt.figure(figsize=(16,8))
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("ciyun.png")

结果如下:

仔细观察词云图,相信很多有过考研经历的同学,应该都能背诵出,那一段很长的话。

好了,本文就讲述到这里,关于文中三个重要的知识点,你都学会了吗?

End

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 进击的Coder 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CleanMyMac X2023Mac免费的系统优化工具
CleanMyMac X可以优化Mac系统。mac系统用久了,用CleanMyMac清理一下效果还不错。可用来清理系统的缓存、日志、语言和垃圾文件,还能卸载应用程序。
用户7442547
2022/11/24
7350
CleanMyMac X4.20Mac电脑清理软件功能介绍
CleanMyMac X4.20是目前的最新版本,支持macOS 10.14,CleanMyMac X4.20是一款Mac电脑清理软件,一键清理非常省事,可以清理掉电脑大量的垃圾、邮件垃圾、废纸篓垃圾、itunes文件垃圾,让你的电脑跟新的一样,速度杠杠的。下面就给大家分享CleanMyMac X 。仅需一键即可快速而安全地清理系统垃圾,释放磁盘空间,因此一直深受Mac用户的喜爱。在不断更新的版本中,CleanMyMac已经不仅仅满足于只做简单的Mac清理工具,而是为Mac用户提供更多的实用功能,让CleanMyMac成为Mac日常运行中的一部分,成为Mac的贴心管家。
用户7442547
2023/02/27
3250
Mac电脑清理垃圾软件CleanMyMac X 2023怎么永久激活
CleanMyMac X取代了Mac的数十种优化工具。您可以说的是它:macOS清洁器,性能监视器,恶意软件清除器以及急救程序,今天为大家带来了最新的版本。
用户9208731
2023/03/02
6.5K0
Mac电脑清理垃圾软件CleanMyMac X 2023怎么永久激活
Mac电脑垃圾清理软件CleanMyMac X4.13安装下载使用教程
当我们刚刚拿到那闪亮的新Mac时,是多么令人愉悦的一种感觉!随着时间的推移,你可能已经注意到它的速度减慢,磁盘空间逐渐减少。不用担心,CleanMyMac会为你的电脑带来焕然一新的体验。这篇文章将向你介绍CleanMyMac的奇妙之处,并通过实例和类比,帮助你更好地理解这款神奇软件的工作原理。cleanMyMac 是 Mac 上的一款系统清理软件,一直以来凭借着漂亮的外表与强大的内在独霸 Mac 清理领域,功能强大,界面优美,点按一下,即可优化调整整个 Mac!
用户7442547
2023/04/25
7610
苹果mac清理软件CleanMyMac X v4.13兼容13系统,堪称Mac最好的系统清理工具
CleanMyMac X for mac是MacOS上一款Mac清理优化工具,不仅包含各种清理功能,更是具有卸载器、维护、扩展、碎纸机这些实用功能,可以同时代替很多工具。它可以清理,优化,保养和监测您的电脑,确保您的Mac运行畅通无阻!测试环境:MacOS 13
用户9208731
2023/05/09
7900
苹果mac清理软件CleanMyMac X v4.13兼容13系统,堪称Mac最好的系统清理工具
CleanMyMac X4.12.4MAC系统优化软件
CleanMyMac X是Mac下一款功能强大的系统垃圾文件清理工具,内置多种系统优化等功能,让您的Mac系统运行得更快更稳定。。CleanMyMac X在macOS的各个角落追逐垃圾。它可以清除不需要的文件,例如过时的缓存,损坏的下载,日志和无用的本地化。您可以删除潜伏在iTunes,邮件,照片中的大量杂乱,甚至可以找到数十亿字节的大型隐藏文件。CleanMyMac X中的Mac清洁工具将在几秒钟内减少额外的重量。
用户7442547
2023/01/31
4250
CleanMyMac X for Mac最新版软件更新功能介绍
CleanMyMac X for Mac 是一款功能更加强大的系统优化清理工具,强大的扫描功能可以挖掘所有垃圾,只需要一键智能清理,便能让Mac恢复原始的性能,是MAC系统非常好用的工具。相比于 CleanMyMac 3 来说,功能增加了不少,此版本为4.11.1官方最新中英文正式版本,永久使用。
用户7442547
2022/07/30
6770
CleanMyMac2023免费版苹果笔记本电脑系统优化工具
最用户友好的Mac问题修复程序。删除系统垃圾、不需要的应用程序和恶意软件,并调整您的Mac以获得最高速度。对于速度较慢的计算机,CleanMyMac就能立即使用。
用户7442547
2022/11/21
4820
CleanMyMac X4.11.1最新版Mac系统清理工具
在日常使用mac时,难免会从官网下载软件,安装在mac上。这些来自官网的软件是无法通过系统方式卸载的。暂且称这种无法卸载的软件为垃圾软件,那该怎么清理呢? CleanMyMac 是macOS系统的最佳系统清理工具之一,CleanMyMac X 具有系统垃圾、邮件清理、恶意软件移除、safari扩展清理、文件粉碎机、软件卸载等常用的清理与安全维护功能,CleanMyMac X 无论是在软件界面设计、交互体验与交互动画方面都是一流水准,是一款即有颜值又好用的实力Mac系统清理工具。
用户7442547
2022/08/19
5750
CleanMyMac X好用吗?cleanmymac x2023多少钱?
近些年伴随着苹果生态的蓬勃发展,越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现,它的使用逻辑与Windows存在很多不同,而且随着使用时间的增加,一些奇奇怪怪的文件也会占据有限的磁盘空间,进而影响使用。
用户9208731
2022/12/28
8130
CleanMyMac X好用吗?cleanmymac x2023多少钱?
CleanMyMac X最受欢迎的电脑清理软件
如果Mac 电脑经常卡机、死机、速度很慢,跳出“存储过满”等问题,那么就需要用到世界上最受欢迎的电脑清理软件之一CleanMyMac X,它提供免费试用版,会告诉您可以释放多少磁盘空间,使用更多功能的完整版更能优化和保护 Mac 计算机,让速度大大提升。网上对CleanMyMac X的评论有的超级正面,有的超级负面,甚至有的“专家”说它是流氓软件,然后我们从实际出发,在测评这款清理软件之后,我们100% 支持它,因为它真的效果好,确实比市面上任何Mac 清理软件好用,价格不是最便宜的,但值得拥有,它在清理文件、改善隐私、删除垃圾或恶意软件以及提高设备的使用寿命和保持性能方面创造了奇迹。
用户7442547
2022/08/20
5540
2023Macbook免费版电脑优化软件CleanMyMac X
如今,我们在生活的方方面面都使用支持互联网的设备——查找信息、购物、银行、做作业、玩游戏,以及与朋友和家人保持联系。因此,我们的设备包含许多关于我们的个人信息。
用户7442547
2022/11/17
9240
CleanMyMac4.3.0最新版本mac电脑系统优化工具
CleanMyMac自身拥有一个安全数据可,它是一个项目列表,拥有一定的规格,可以确定软件能够正确选择和清理Mac垃圾文件,更加安全,可靠!随着10周年纪念版的推出,CleanMyMac已经完成了向全面清理,优化和管理工具的转变。它的算法和功能变得更加智能,但外观仍然像您预期的那样简单。
用户7442547
2023/03/20
3490
CleanMymac X2023全新Mac版本下载安装
CleanMymac X Mac版本,以一种全面的方式扫描Mac系统以允许垃圾隐藏,您只需要轻松单击左鼠标按钮即可清洁数字G的垃圾,这是如此简单。立即提高您的MAC速度。为Apple System计算机建造可以帮助用户清理多种类型的垃圾和其他恶意束,提高计算机的运行速度,并将计算机返回干净的操作环境!CleanMyMac X是一款超好用的Mac清理优化工具,可以帮助用户删除系统垃圾、不需要的应用程序和恶意软件,并调整您的 Mac 以获得最大速度! CleanMyMac是MacPaw公司研发的Mac清理工具,具有很多功能。
用户7442547
2023/01/01
2820
CleanMyMac X2023最新版还有哪些其他功能?
CleanMyMac X是一款专业的Mac清理软件,可智能清理mac磁盘垃圾和多余语言安装包,快速释放电脑内存,轻松管理和升级Mac上的应用。同时CleanMyMac X可以强力卸载恶意软件,修复系统漏洞,一键扫描和优化Mac系统!CleanMyMac 是一款强大的 Mac 清理、加速工具和健康卫士,可以让您的 Mac 再次恢复巅峰性能。
用户7442547
2023/01/01
4910
cleanmymac下载最新版2023有哪些新功能?
CleanMyMac X是苹果认可的工具,可以放心使用。如果你对它是否是恶意软件有疑问,请不要担心,可以免费试用。如果你真的亲自尝试,会更容易发现它的感觉和表现。安装只需要一分钟,而且很快,所以如果你有一点好奇心,为什么不试一试呢?
用户7442547
2022/11/08
5840
CleanMyMac X2023最新版本Mac专用清理软件
MacPaw的CleanMyMac X是一款先进的清洁实用清理工具,coco玛奇朵今天简单介绍一下软件功能:CleanMyMac透明的界面简单、清晰、功能性强。它是一款诞生自2008年的软件,早期主要用来清理iPhoto库以及大文件和旧文件查找器。在2018年发布了X版本,新增了许多功能,包括删除恶意软件、为 Mac 加速等功能。随着时间推移,mac系统垃圾就会越来越多,电脑就开始变慢变卡。使用CleanMyMac X的系统垃圾功能,点击一键扫描即可帮助您快速清理mac系统缓存垃圾,是不是非常的方便?而且这款Mac专用清理软件还有很多非常实用的功能,大家不妨下载试用了解其强大之处!
用户7442547
2023/02/08
3430
CleanMyMac X免费试用版功能特点介绍
如果Mac 电脑经常卡机、死机、速度很慢,跳出“存储过满”等问题,那么就需要用到世界上最受欢迎的电脑清理软件之一CleanMyMac X,它提供免费试用版,会告诉您可以释放多少磁盘空间,使用更多功能的完整版更能优化和保护 Mac 计算机,让速度大大提升。网上对CleanMyMac X的评论有的超级正面,有的超级负面,甚至有的“专家”说它是流氓软件,然后我们从实际出发,在测评这款清理软件之后,我们100% 支持它,因为它真的效果好,确实比市面上任何Mac 清理软件好用,价格不是最便宜的,但值得拥有,它在清理文件、改善隐私、删除垃圾或恶意软件以及提高设备的使用寿命和保持性能方面创造了奇迹。
用户7442547
2022/10/01
5.9K0
CleanMyMac X 2023最新详细的测评以及其最佳 Mac Cleaner 替代品
当您在 Internet 上搜索 Mac 清理工具以快速释放 Mac 存储空间、管理应用程序、优化 Mac 性能或清除病毒时,您可能会得到 CleanMyMac X. 推荐。 在您的 Mac 上安装 CleanMyMac 之前,您肯定想知道有关它的所有必要信息。
用户9208731
2023/01/17
7480
CleanMyMac X 2023最新详细的测评以及其最佳 Mac Cleaner 替代品
免费的苹果Mac工具CleanMyMacX2023新版本功能介绍
最近刚刚入手了一台 M1 Macbook,因为不是很懂下载了很多软件,然后又卸载了一些,导致系统内存在很多垃圾文件,我也不知道怎么清理,后来查询了一些资料,大家都普遍推荐 CleanMyMac X,于是经过我一番折腾也终于是免费安装成功!
用户7442547
2023/04/25
4540
推荐阅读
相关推荐
CleanMyMac X2023Mac免费的系统优化工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验