基于Python词云分析政府工作报告关键词
作者:其实还好啦 发布时间:2022-12-23 12:01:21
前言
十三届全国人大三次会议作了政府工作报告。这份政府工作报告仅有10500字左右,据悉是改革开放40年以来最短的一次。受到疫情影响,今年的两会会议适当缩短,政府工作报告也大幅压缩,体现了“实干为要”的理念。那么,这份政府工作报告突出强调了哪些关键词呢?我们其实可以基于Python技术进行词频分析和词云制作!
import matplotlib.pyplot as plt#绘图库
import jieba
from wordcloud import WordCloud
# 读入文本数据
fp = open(r'D:\爬虫下载\2020年政府工作报告.txt','r',encoding='utf-8')
content = fp.read()
# print(content)
#分词
words = jieba.lcut(content)
# 词频分析操作
data = {}
for word in words:
if len(word)>1:
if word in data:
data[word]+=1
else:
data[word]=1
# print(data)
#排序
hist = list(data.items())#转成列表
hist.sort(key=lambda x:x[1],reverse=True)
# print(hist)
#调试输出
for i in range(20):
# print(hist[i])
print('{:<10}{:>5}'.format(hist[i][0],hist[i][1]))#左对齐10,右对齐5个长度
下表统计了今年的政府工作报告中出现次数最多的几个关键词。我们可以看到,今年的政府工作报告中提到“发展”的次数最多,一共出现了69次,“发展”一直都是政府工作报告中的重要关键词;其次是“就业”,出现了39次,足以显示新冠疫情之下就业问题的严峻性,以及党中央、国务院对就业问题的高度重视,政府工作报告中没有提出全年经济增速的具体目标,但仍然提出了就业目标——城镇新增就业900万人以上、城镇调查失业率6%左右、城镇登记失业率5.5%左右;第三多的就是“疫情”,报告中多次提到疫情防控工作,并指出这次新冠肺炎疫情,是新中国成立以来我国遭遇的传播速度最快、感染范围最广、防控难度最大的公共卫生事件。
“企业”作为市场经济的主体,出现的次数达到了30次,要想保障就业和民生,必须稳住上亿市场主体,尽力帮助企业特别是中小微企业、个体工商户渡过难关,报告提出要加大宏观政策实施力度,着力稳企业保就业。还有“支持”、“保障”、“加强”、“推进”等鼓舞人心的关键词出现次数也很多,相信大家看到政府工作报告中满满的政策“干货”,信心和底气也会更足了。
根据关键词的出现次数,我们可以使用Python绘制出政府工作报告词云图。Python的词云功能相当强大,你可以自己设定形状、字体、大小!
result = ' '.join(words)
# print(result)
#生成词云
wc = WordCloud(
font_path=r'D:\PPT\ppt字体\思源宋体SC-Regular.otf',
background_color = 'white',#背景颜色
width=500,#图片的宽
height=300,
max_font_size=50,
min_font_size=12
)
wc.generate(result)
wc.to_file(r'.\wordcloud.png')#保存图片
#显示图片
plt.figure('政府工作报告')
plt.imshow(wc)
plt.axis('off')#关闭坐标轴
plt.show()
来源:https://www.cnblogs.com/python0921/p/12942792.html


猜你喜欢
- 1.什么是ORMORM 全拼Object-Relation Mapping.中文意为 对象-关系映射.在MVC/MVT设
- IP合法性校验是开发中非常常用的,看起来很简单的判断,作用确很大,写起来比较容易出错,今天我们来总结一下,看一下3种常用的IP地址合法性校验
- 在SQL Server 2005中,它的另外一个强大的新特点是数据库快照。数据库快照是一个数据库的只读副本,它是数据库所有数据的映射,由快照
- 如下所示:#!/usr/bin/python# -*- coding: UTF-8 -*-import socketimport selec
- Django是用python写的web开发框架,其特点是:1.重量级框架,内部封装了很多的功能组件,使开发变的简便快速,2.MVT模式:前后
- vi /etc/freetds/freetds.conf [global]# TDS protocol versiontds version
- 需要处理原始的音频,所以给服务器的环境安装librosa的包pip install librosa直接pip install librosa
- 1. 迭代根据记录的前面的元素的位置信息 去访问后续的元素的过程 -遍历 迭代2. 可迭代对象 iterable如何判断可迭代对象的3种方式
- 在实际的项目中,我们一般都会建立三个环境:开发、测试和生产环境,这三种环境会使用不同的配置组合,为了能方便地切换配置,我们可以为不同的环境创
- 准备工作B站登录页 https://passport.bilibili.com/loginpython3pip install seleni
- 数据库,顾名思义,就是一个存储数据的大仓库,涵盖了多个方面的知识和应用。其优点和特性颇多,为多种编程语言的高效运行都提供了可靠又准确的信息来
- Opera, 作为 A-Grade 浏览器,在现在的前端开发中务必支持。它很优秀,很不幸,bug是每个浏览器都不可避免的问题,Opera亦难
- 本文实例讲述了python常见数制转换用法。分享给大家供大家参考。具体分析如下:1.进位制度Python中二进制是以0b开头的:例如: 0b
- 前言因为有一些网站需要每日检查是否有问题,所以需要一个报警监控的机制,这个需要你指定你发送的邮箱和你接收的邮箱,就可以做到对网站自动监控了。
- bottle是一个小型web框架,很小只有一个文件,但功能确很强大,学起来也简单,简单和小巧的同时也有很多不足,某些功能支持还不是很完善,比
- 人生苦短,我用python!为什么很多人喜欢用python,因为包多呀,各种调包。但是调包有的时候也调的闹心,因为安装包不是失败就是很慢,很
- 前言:我们平常会使用很多社交媒体,如微信、微博、抖音等等,在这些平台上面,我们会关注某些KOL,同时自己身边的亲朋好友也会来关注我们,成为我
- 我们知道numpy的array是可以保存到文件的,一个常用的做法是通过to_file()保存到而进行.bin文件中,然后再通过from_fi
- 问题你有一个代码片段可能会抛出多个不同的异常,怎样才能不创建大量重复代码就能处理所有的可能异常呢?解决方案如果你可以用单个代码块处理不同的异
- 定时任务是老生常谈了,因为我们总是需要定时修改特定的数据。实现它的方法肯定不止一种,但我在相当长一段时间里都是用程序编码去做的,今天突然想到