基于Python词云分析政府工作报告关键词
作者:其实还好啦 发布时间:2022-12-23 12:01:21
前言
十三届全国人大三次会议作了政府工作报告。这份政府工作报告仅有10500字左右,据悉是改革开放40年以来最短的一次。受到疫情影响,今年的两会会议适当缩短,政府工作报告也大幅压缩,体现了“实干为要”的理念。那么,这份政府工作报告突出强调了哪些关键词呢?我们其实可以基于Python技术进行词频分析和词云制作!
import matplotlib.pyplot as plt#绘图库
import jieba
from wordcloud import WordCloud
# 读入文本数据
fp = open(r'D:\爬虫下载\2020年政府工作报告.txt','r',encoding='utf-8')
content = fp.read()
# print(content)
#分词
words = jieba.lcut(content)
# 词频分析操作
data = {}
for word in words:
if len(word)>1:
if word in data:
data[word]+=1
else:
data[word]=1
# print(data)
#排序
hist = list(data.items())#转成列表
hist.sort(key=lambda x:x[1],reverse=True)
# print(hist)
#调试输出
for i in range(20):
# print(hist[i])
print('{:<10}{:>5}'.format(hist[i][0],hist[i][1]))#左对齐10,右对齐5个长度
下表统计了今年的政府工作报告中出现次数最多的几个关键词。我们可以看到,今年的政府工作报告中提到“发展”的次数最多,一共出现了69次,“发展”一直都是政府工作报告中的重要关键词;其次是“就业”,出现了39次,足以显示新冠疫情之下就业问题的严峻性,以及党中央、国务院对就业问题的高度重视,政府工作报告中没有提出全年经济增速的具体目标,但仍然提出了就业目标——城镇新增就业900万人以上、城镇调查失业率6%左右、城镇登记失业率5.5%左右;第三多的就是“疫情”,报告中多次提到疫情防控工作,并指出这次新冠肺炎疫情,是新中国成立以来我国遭遇的传播速度最快、感染范围最广、防控难度最大的公共卫生事件。
“企业”作为市场经济的主体,出现的次数达到了30次,要想保障就业和民生,必须稳住上亿市场主体,尽力帮助企业特别是中小微企业、个体工商户渡过难关,报告提出要加大宏观政策实施力度,着力稳企业保就业。还有“支持”、“保障”、“加强”、“推进”等鼓舞人心的关键词出现次数也很多,相信大家看到政府工作报告中满满的政策“干货”,信心和底气也会更足了。
根据关键词的出现次数,我们可以使用Python绘制出政府工作报告词云图。Python的词云功能相当强大,你可以自己设定形状、字体、大小!
result = ' '.join(words)
# print(result)
#生成词云
wc = WordCloud(
font_path=r'D:\PPT\ppt字体\思源宋体SC-Regular.otf',
background_color = 'white',#背景颜色
width=500,#图片的宽
height=300,
max_font_size=50,
min_font_size=12
)
wc.generate(result)
wc.to_file(r'.\wordcloud.png')#保存图片
#显示图片
plt.figure('政府工作报告')
plt.imshow(wc)
plt.axis('off')#关闭坐标轴
plt.show()
来源:https://www.cnblogs.com/python0921/p/12942792.html
猜你喜欢
- 功能性的文章直接用几个最简单的实现表达:xlsxwriter库的核心就是其Workbook对象。创建一个指定名字的xlsx文件:import
- 1.使用iloc对数据进行批量修改使用iloc最简单的就是将数据批量修改为某个特定的值以下是我随便写入的数据:现在将[‘
- 在Python2.x中表示八进制的方式有两种:以'0'开头和以'0o'(字母o)开头: Pyth
- 前言:jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分
- 基于OpenCV2.4.8和 python 2.7实现简单的手势识别。以下为基本步骤 1.去除背景,提取手的轮廓2. RGB->YUV
- 类的代码: define('QR_MODE_NUL', -1); define('QR_MODE_NUM',
- 博主作为爬虫初学者,本次使用了requests和beautifulsoup库进行数据的爬取爬取网站:http://datachart.500
- 一、使用ImageFolder读取数据集时忽略特定文件如果事先知道需要忽略哪些文件,当然直接从数据集里删除就行了。但如果需要在程序运行时动态
- 对于python开发用户而言,经常需要安装一些python的第三方库,但是第三方库的安装经常出错,以下给大家介绍一下python安装第三方库
- shapefile转换geojsonimport shapefileimport codecsfrom json import dumps#
- Python 3 利用 Dlib 19.7 实现摄像头人脸检测特征点标定0.引言利用python开发,借助Dlib库捕获摄像头中的人脸,进行
- 过年回家,都会约上亲朋好友聚聚会,会上经常会打麻将,斗地主,斗牛。在这些游戏中,斗牛是最受欢迎的,因为可以很多人一起玩,而且没有技术含量,都
- 单向链表单向链表也叫单链表,是链表中最简单的一种形式,它的每个节点包含两个域,一个信息域(元素域)和一个链接域。这个链接指向链表中的下一个节
- Python自身作为一门编程语言,它有多种实现。这里的实现指的是符合Python语言规范的Python解释程序以及标准库等。这些实现虽然实现
- Microsoft JET Database Engine 错误 '80040e2
- 本文实例讲述了Python实现动态加载模块、类、函数的方法。分享给大家供大家参考,具体如下:动态加载模块: 方式1:系统函数__import
- 本文实例讲述了Python设计模式之观察者模式。分享给大家供大家参考,具体如下:观察者模式是一个软件设计模式,一个主题对象包涵一系列依赖他的
- 方法一 <%dim total(7,3) total(1,0)="ASP之家"&n
- 概况在开发过程中,我们一般直接用Python命令直接运行Flask程序。这样的运行只适合我们开发,方便我们调试。一旦程序部署到线上,这样运行
- 以前跟同事开玩笑时说过,我们遇到的用户在访谈测试过程中的表现基本上就三种类型,发泄型,赞美型和实话实说型。发泄型用户通常是在产品的使用过程中