Python jieba 中文分词与词频统计的操作
作者:方工 发布时间:2022-08-31 17:08:14
标签:Python,jieba,分词
我就废话不多说了,大家还是直接看代码吧~
#! python3
# -*- coding: utf-8 -*-
import os, codecs
import jieba
from collections import Counter
def get_words(txt):
seg_list = jieba.cut(txt)
c = Counter()
for x in seg_list:
if len(x)>1 and x != '\r\n':
c[x] += 1
print('常用词频度统计结果')
for (k,v) in c.most_common(100):
print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))
if __name__ == '__main__':
with codecs.open('19d.txt', 'r', 'utf8') as f:
txt = f.read()
get_words(txt)
样本:十九大报告全文
常用词频度统计结果
发展 ********************************************************************** 212
中国 ******************************************************** 168
人民 **************************************************** 157
建设 ************************************************* 148
社会主义 ************************************************ 146
坚持 ******************************************* 130
国家 ****************************** 90
全面 ***************************** 88
制度 *************************** 83
实现 *************************** 83
推进 *************************** 81
政治 ************************** 80
社会 ************************** 80
特色 ************************** 79
加强 *********************** 71
体系 ********************** 68
文化 ********************** 66
我们 ********************* 64
时代 ********************* 63
必须 ******************** 61
经济 ******************* 59
伟大 ******************* 58
完善 ***************** 51
我国 **************** 50
推动 *************** 47
现代化 *************** 47
安全 *************** 46
更加 ************** 44
民主 ************** 44
补充:jieba读取txt文档并进行分词、词频统计,输出词云图
代码实现
# 库的引用
import jieba
import matplotlib as mpl
import matplotlib.pyplot as plt
from wordcloud import WordCloud
#定义一个空字符串
final = ""
#文件夹位置
filename = r"D:\python\pra\推荐系统1-500.txt"
#打开文件夹,读取内容,并进行分词
with open(filename,'r',encoding = 'utf-8') as f:
for line in f.readlines():
word = jieba.cut(line)
for i in word:
final = final + i +" "
运行结果
# 图云打印
word_pic = WordCloud(font_path = r'C:\Windows\Fonts\simkai.ttf',width = 2000,height = 1000).generate(final)
plt.imshow(word_pic)
#去掉坐标轴
plt.axis('off')
#保存图片到相应文件夹
plt.savefig(r'D:\python\pra\6.png')
图云输出图
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/onestab/article/details/78307765
0
投稿
猜你喜欢
- 起步Python 的成功一个原因是它的可读性,代码清晰易懂,更容易被人类所理解,但有时可读性会产生误解。假如要判断一个变量是不是 17,那可
- 写在前面面试官:除了 HTTP,你还用过什么通信协议?答:Websocket 在数字孪生中的应用随着 数智化 转型的推进,越来越多行业开始加
- 内部/内嵌函数1、定义:在一个函数的函数体内使用关键字def关键字定义一个新的函数,这个新的函数就叫做内部/内嵌函数。2、注意点:内部函数的
- Python获取电脑截图有多种方式,具体如下:PIL中的ImageGrab模块windows APIPyQtpyautoguiPIL中的Im
- 本文实例讲述了Python实现的端口扫描功能。分享给大家供大家参考,具体如下:一 代码import sysimport socketimpo
- 本文实例讲述了python执行get提交的方法。分享给大家供大家参考。具体如下:import sys, urllib2, urllibdef
- 前言列表(list)同字符串一样都是有序的,因为他们都可以通过切片和索引进行数据访问,且列表是可变的。创建列表的几种方法第一种name_li
- MySQL中,常常会看到一些关于动态字符串的处理,列如:DYNAMIC_STRING。为了记录动态字符串的实际长度,缓冲区的最大长度,以及每
- uwsgi介绍uWSGI是一个Web服务器,它实现了WSGI协议、uwsgi、http等协议。Nginx中HttpUwsgiModule的作
- reflect 反射包针对反射,Go 提供了 reflect 包,使用这个包里的函数可以在程序运行时获取和更新未知变量的值,操作未知变量的方
- 在最开始的时候所有的斐波那契代码都是使用递归的方式来写的,递归有很多的缺点,执行效率低下,浪费资源,还有可能会造成栈溢出,而递归的程序的优点
- ctrl+Enter:重建ctrl+0:相当于点击当前行左方的加号或减号ctrl+E:打开新窗口预览ctrl+T:替换\t为两个空格tab:
- 需求小编通常会上一些专业的视频网站比如腾讯视频、优酷,在上面看电影、电视剧。这些网站有个优点,可以缓存视频,在通勤路上比如地铁就可以愉快的刷
- 在mysql数据库中,当我们需要模糊查询的时候 ,我们会使用到通配符。首先我们来了解一下2个概念,一个是操作符,一个是通配符。操作符like
- 在本节中,您将开始修改为电影控制器所新加的操作方法和视图。然后,您将添加一个自定义的搜索页。在浏览器地址栏里追加/Movies, 浏览到Mo
- MobaXterm一款强大好用的远程终端登录利器,之前操作远端服务器一直使用的是XShell和Xftp,后来偶得一神器MobaXterm,能
- python提取照片坐标信息的代码如下所示:from PIL import Imagefrom PIL.ExifTags import TA
- 自从jQuery搞出特性侦探这东东,西方从来没有如此狂热研究浏览器。在以前javascript与DOM遍地是bug,美工主宰前端的年代,人们
- cv2库在opencv库内,因此需要下载opencv-python1、打开windows命令行:win+Rcmd2、更新pip版本(不一定要
- 介绍在本文中,你将学习如何使用 Python 构建人脸识别系统。人脸识别比人脸检测更进一步。在人脸检测中,我们只检测人脸在图像中的位置,但在