Python基于wordcloud及jieba实现中国地图词云图
作者:Johnthegreat 发布时间:2021-03-31 15:08:53
标签:Python,wordcloud,jieba,词云
热词图很酷炫,也非常适合热点事件,抓住重点,以图文结合的方式表现出来,很有冲击力。下面这段代码是制作热词图的,用到了以下技术:
jieba,把文本分词
wordcloud,制作热图
chardet,辨别文件的编码格式,其中中文统一为GB18030,更加的兼容
imageio,提取图片的形状
其他:自动识别文件编码,自动识别txt文件,图片文件名与txt文件一致,使用的是四大名著的文本(自行百度),部分中国地图
上代码:
import os
import jieba
import wordcloud
import chardet
import imageio
directory = "D:\\"
mask = imageio.imread(r"D:\map.jpg") # 用于最后图像图形
directory_lists = os.scandir(directory)
for directory_list in directory_lists:
if directory_list.is_dir() or directory_list.path.split('.')[-1] != "txt":
continue
with open(directory_list.path, 'rb') as fd:
coding = chardet.detect(fd.read()[:1000])['encoding']
if coding.upper() == 'GB2312' or coding == 'GBK':
coding = 'GB18030'
file = open(directory_list.path, 'r', encoding=coding)
text = file.read()
file.close()
jieba_text = ' '.join(jieba.lcut(text))
w = wordcloud.WordCloud(height=800, width=1600, font_path='msyh.ttc', background_color='white', stopwords={'Page'}, mask=mask)
w.generate(jieba_text)
w.to_file('{}.png'.format(directory_list.path.split('.')[0]))
输出:
水浒传的如下
西游记的如下
仔细看输出的内容,还是挺有意思的,哈哈哈。
来源:https://www.cnblogs.com/johnthegreat/p/12595892.html


猜你喜欢
- 本文实例为大家分享了python使用turtle库绘制树的具体代码,供大家参考,具体内容如下# -*- coding: utf-8 -*-&
- 在教材实例编写雷达图时出现ValueError,具体如下:ValueError: The number of FixedLocator lo
- 本文实例为大家分享了python远程连接MySQL数据库的具体代码,供大家参考,具体内容如下连接数据库这里默认大家都已经配置安装好 MySQ
- 由于javascript是unicode编码的,所有的字符对于它来说一个就是一个,但是后台程序不是,通常在后台程序中一个中文是占两个字节的,
- 查找所有数据库中没有主键的表select table_schema,table_name from information_schema.t
- 一. 什么是模块(module)?在实际应用中,有时程序所要实现功能比较复杂,代码量也很大。若把所有的代码都存储在一个文件中,则不利于代码的
- 1,判断图像清晰度,明暗,原理,Laplacian算法。偏暗的图片,二阶导数小,区域变化小;偏亮的图片,二阶导数大,区域变化快。import
- 以下是一些python的list和set的基本操作1. list的一些操作list = [1, 2, 3]list.append(5)pri
- 一 导言设计一个好的用户系统往往不是那么容易,Django提供的用户系统可以快速实现基本的功能,并可以在此基础上继续扩展以满足我们的需求。先
- 目录一、对比数据类型二、可变集合构造方法三、不可变集合的构造方法四、集合构造注意事项 Python集合又是一种新的数据类型,集合有
- numpy.linalg.norm函数的使用1、linalg = linear(线性)+ algebra(代数),norm则表示范数。首先需
- Jones向量假设光波沿z轴传播,那么其三个方向的电场分量可以表示为Jones矩阵能够保证二维列向量形状不变的运算有无穷多种,但最符合我们直
- 前几天帮人调试一个ASP+SQL2000+IIS5.1/6.0的网站程序,调试过程中遇到的问题如下:一、 SQLServer登录 原先存在备
- 前言在实际应用中经常会用到固定字段的长度,但往往有些数据不能达到规定的长度,这是就需要我们用其他的字符来填充, 在Oracle中有函数解决这
- jquery有一个插件叫Timer,很有意思,咱来实现一个简版的yui3的node timer。但还是应当首先交代下yui3的node扩展的
- 一、简介urllib 库,它是 Python 内置的 HTTP 请求库,不需要额外安装即可使用,它包含四个模块:`request` 请求模块
- 小编今天教你们python怎么导入坐标点,解决你在生活中遇到的小问题。首先下载安装python,打开文本编辑器,将文件保存成 py格式,如果
- var obj = document.getElementById("testSelect"); //定位idvar i
- 数据类型:float — 浮点数可以精确到小数点后面15位int — 整型可以无限 * ool — 非零为true,零为falselist —
- Http与https对比详细介绍概要:HTTPS(Secure Hypertext Transfer Protocol)安全超文