Python制作个性化的词云图实例讲解
作者:赵卓不凡 发布时间:2021-10-17 03:51:02
1. 引言
词云图可以让我们方便地识别出文本中的关键词,其中单词的大小代表它们的频率。有了这个,我们甚至在阅读之前就可以很好地了解文本的内容。虽然有很多免费的工具可以在线制作文字云,但我们可以使用万能的Python来定制个性化的词云图。
在本文中,我们将使用第三方Python库stylecloud,有了该库,可以通过简短的几行代码来制作漂亮的词云图。如下所示:
闲话少说,我们直接开始吧。 :)
2. 举个栗子
接下来,我们将用来制作词云图的文本是偶像乔布斯在斯坦福大学演讲的一部分。点击这里可以获得对应的 .txt 文件或使用任何其他的文本来制作你自己的词云图。
2.1 安装stylecloud库
这里我们可以直接使用pip来安装该词云库,代码如下:
pip3 install stylecloud
2.2 生成词云图
接着我们可以使用stylecloud.gen_stylecloud() 方法来生成词云图,通过传递相应的文本 .txt 文件的路径和生成词云的图标样式。
在网站上,我们可以方便的找到可用于 stylecloud 的图标样式列表。在此示例中,我选择了一个苹果作为图标。代码如下:
import stylecloud
stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
icon_name="fas fa-apple-alt")
上述代码运行后,在当前python文件目录下生成以png格式保存词云图,如下所示:
2.3 美化显示效果
仔细观察gen_stylecloud函数的相关参数,我们可以控制背景颜色、单词的颜色、输出文件的名称等。为此,我们查看下面的代码:
stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
icon_name='fas fa-apple-alt',
colors='white',
background_color='black',
output_name='apple.png',
collocations=False)
运行结果如下:
2.4 处理停用词
我们可以使用stop_words库来处理文本中的停用词,可以使用pip install stop_words
来安装该库。有了停用词列表,我们也可以将其传递给在gen_stylecloud函数中的custom_stopwords参数。
样例代码如下:
from stop_words import get_stop_words
stop_words = get_stop_words('english')
stylecloud.gen_stylecloud(file_path='SJ-Speech.txt',
icon_name='fas fa-apple-alt',
palette='cartocolors.qualitative.Pastel_3',
background_color='black',
output_name='apple.png',
collocations=False,
custom_stopwords=stop_words)
上述代码的运行结果如下:
2.5 使用自定义背景图像
在上述网站上有数百个免费图标可用于 stylecloud,但是但有时我们可能希望使用自己的图像来为创建更加个性化的词云图。此时,我们可以使用PIL库来读取图像,使用matplotlib来绘制我们的图像,使用wordcloud来制作对应的词云图。
下述代码中使用蝙蝠的图案来生成对应的词云图,代码如下:
from wordcloud import WordCloud, ImageColorGenerator
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
# create a mask based on the image we wish to include
my_mask = np.array(Image.open('batman-logo.png'))
# create a wordcloud
wc = WordCloud(background_color='white',
mask=my_mask,
collocations=False,
width=600,
height=300,
contour_width=3,
contour_color='black',
stopwords=stop_words)
with open('SJ-Speech.txt',encoding='gb18030',errors='ignore') as txt_file:
texto = txt_file.read()
wc.generate(texto)
image_colors = ImageColorGenerator(my_mask)
wc.recolor(color_func=image_colors)
plt.figure(figsize=(20, 10))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
wc.to_file('wordcloud2.png')
plt.show()
运行结果如下:
3. 总结
本文详细介绍了如何使用stylecloud库来绘制各种样式的词云图,以突出显示文本中相应的关键词,并给出了定制化改进显示效果的样例代码。
来源:https://blog.csdn.net/sgzqc/article/details/122905327


猜你喜欢
- 这个阶段一直在做和梯度一类算法相关的东西,索性在这儿做个汇总:一、算 * 述梯度下降法(gradient descent)别名最速
- 本文总结分析了Python装饰器简单用法。分享给大家供大家参考,具体如下:装饰器在python中扮演着很重要的作用,例如插入日志等,装饰器可
- 一、前言今天我们将用Python来创建一个属于自己的音乐播放器。为此,我们将使用三个软件包:Tkinter:用于UIPygame:播放音乐o
- 1.用sqlserver的维护计划在这里我就不给截图演示了,这个比较简单,无非就是通过sqlserver自己的维护计划拖拽出2个一个‘备份数
- 录入身份证信息是一件繁琐的工作,如果可以自动识别并且录入系统,那可真是太好了。今天我们就来学习一下,如何自动识别身份证信息并且录入系统~识别
- 字典获取最大和最小value对应的keymy_dict = {'x':500, 'y':5874, '
- 如果这个问题不解决,那么MySQL将无法实际处理中文。 出现这个问题的原因是因为MySQL在查询字符串时是大小写不敏感的,在编绎MySQL时
- 本文实例为大家分享了tensorflow实现线性回归的具体代码,供大家参考,具体内容如下一、随机生成1000个点,分布在y=0.1x+0.3
- aes的gcm模式的加密和解密要给已有的系统启用加密解密,目前推荐的是aes的gcm模式的加密和解密,在微服务如果向前有公共方法处理 读取数
- 本来在网上有不少关于这方面的文章,可是我找了好久也没看到把(可能我的搜索水平有线把)不过倒是聊天室的很多。如何统计会员再线状态,希望对刚开始
- 最近做的都是前端的项目,很多项目都有回到顶部的需求,下面把我写js代码做个笔录,方便以后查找。发现还可以添加从快到慢的动画效果和随时下拉滚动
- 一、请求扩展1.before_request作用: 类比django中间件中的process_request,在请求到来执行路由函数之前先执
- 1.1 什么是多线程 Threading多线程可简单理解为同时执行多个任务。多进程和多线程都可以执行多个任务,线程是进程的一部分。线程的特点
- 如何用JMail同时给多人发信?在ASP中,为什么我在Jmail收件人处指定多个收件人时,像这样:JMail.AddRecipient&nb
- 本文实例讲述了Go语言模拟while语句实现无限循环的方法。分享给大家供大家参考。具体实现方法如下:这段代码把for语句当成C语言里的whi
- 代码如下: var lishustr = "qwertyuiopasdfghjklmnbvcxz"; var s = l
- 如果你是一位前端开发工程师,对“跨平台”一词应该不会感到陌生。像常见的前端框架:比如React、Vue、Angular,它们可以做网页端,也
- base64 其实是一种编码转换方式, 将 ASCII 字符转换成普通文本, 是网络上最常见的用于传输8Bit字节代码的编码方式之一。bas
- validator自定义验证及易错点validator自定义验证element中Form 组件提供了表单验证的功能,只需要通过 rules
- 本文实例讲述了Python基于多线程实现ping扫描功能。分享给大家供大家参考,具体如下:# -*- coding:utf-8 -*-#!