C#中使用jieba.NET、WordCloudSharp制作词云图的步骤
作者:time-flies 发布时间:2022-02-10 19:38:49
词云简介
“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的视觉上的突出。
网上大部分文章介绍的是使用Python的jieba、wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.NET、WordCloudSharp库生成词云图,后者是前者的.NET实现。
准备工作
创建一个C#的控制台项目,通过NuGet添加引用对jieba.NET、WordCloudSharp的引用,使用方法可以参考以下链接:
jieba.NET:https://github.com/anderscui/jieba.NET
WordCloudSharp:https://github.com/AmmRage/WordCloudSharp
安装之后,在packages\jieba.NET目录下找到Resources目录,将整个Resources目录拷贝到程序集所在目录,这里面是jieba.NET运行所需的词典及其它数据文件。
基本算法
算法主要步骤如下:
提取关键词:基于TF-IDF算法、TextRank算法提取文本的关键词,按权重大小选取部分关键词。
统计关键词词频:先将文本分词,统计每个词的词频,再筛选出关键词的词频。
生成词云图:根据关键词及其词频信息在蒙版图片的基础上生成词图。
注:本文采用TF-IDF算法提取关键词,蒙版图目前只支持黑白图片。
TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
算法实现
使用JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerableallowPos = null)从指定文本中抽取关键词的同时得到其权重,代码如下:
/// <summary>
/// 从指定文本中抽取关键词的同时得到其权重
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
static WordWeightPair[] ExtractTagsWithWeight(string text)
{
var extractor = new TfidfExtractor();
var wordWeight = extractor.ExtractTagsWithWeight(text, 50);
StringBuilder sbr = new StringBuilder();
sbr.Append("词语");
sbr.Append(",");
sbr.Append("权重");
sbr.AppendLine(",");
foreach (var item in wordWeight)
{
sbr.Append(item.Word);
sbr.Append(",");
sbr.Append(item.Weight);
sbr.AppendLine(",");
}
string filename = "关键词权重统计.csv";
File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
Console.WriteLine("关键词提取完成:" + filename);
return wordWeight.ToArray();
}
使用JiebaNet.Segmenter.Common下的Counter类统计词频,其实现来自Python标准库的Counter类(具体接口和实现细节略有不同),代码如下:
/// <summary>
/// 分词并统计词频:默认为精确模式,同时也使用HMM模型
/// </summary>
/// <param name="text"></param>
/// <param name="wordWeightAry"></param>
/// <returns></returns>
static KeyValuePair<string, int>[] Counter(string text, WordWeightPair[] wordWeightAry)
{
var segmenter = new JiebaSegmenter();
var segments = segmenter.Cut(text);
var freqs = new Counter<string>(segments);
KeyValuePair<string, int>[] countAry = new KeyValuePair<string, int>[wordWeightAry.Length];
for (int i = 0; i < wordWeightAry.Length; i++)
{
string key = wordWeightAry[i].Word;
countAry[i] = new KeyValuePair<string, int>(key, freqs[key]);
}
StringBuilder sbr = new StringBuilder();
sbr.Append("词语");
sbr.Append(",");
sbr.Append("词频");
sbr.AppendLine(",");
foreach (var pair in countAry)
{
sbr.Append(pair.Key);
sbr.Append(",");
sbr.Append(pair.Value);
sbr.AppendLine(",");
}
string filename = "词频统计结果.csv";
File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
Console.WriteLine("词频统计完成:" + filename);
return countAry;
}
使用WordCloudSharp生成词云图,蒙版图必须使用黑白图片,记得手动引用System.Drawing,代码如下:
/// <summary>
/// 创建词云图
/// </summary>
/// <param name="countAry"></param>
static void CreateWordCloud(KeyValuePair<string, int>[] countAry)
{
string markPath = "mask.jpg";
string resultPath = "result.jpg";
Console.WriteLine("开始生成图片,读取蒙版:" + markPath);
Image mask = Image.FromFile(markPath);
//使用蒙版图片
var wordCloud = new WordCloud(mask.Width, mask.Height, mask: mask, allowVerical: true, fontname: "YouYuan");
//不使用蒙版图片
//var wordCloud = new WordCloud(1000, 1000,false, null,-1,1,null, false);
var result = wordCloud.Draw(countAry.Select(it => it.Key).ToList(), countAry.Select(it => it.Value).ToList());
result.Save(resultPath);
Console.WriteLine("图片生成完成,保存图片:" + resultPath);
}
运行测试
以本文为分析文本生成词云图,代码如下:
static void Main(string[] args)
{
string text = File.ReadAllText("待处理数据.txt");
var wordWeight = ExtractTagsWithWeight(text);
var wordFreqs = Counter(text, wordWeight);
CreateWordCloud(wordFreqs);
Console.Read();
}
蒙版图如下:
词云图如下(使用蒙版):
词云图如下(不使用蒙版):
在得到关键词的词频信息后,通过在线工具网站生成词云图片会更加方便一点,如词云文字、图悦等。
参考资料
jieba.NET是jieba中文分词的.NET版本(C#实现)
TF-IDF算法和TextRank算法的分析比较
Python生成词云图
来源:https://www.cnblogs.com/timefiles/p/WordCloudCSharp.html


猜你喜欢
- C#书写规范 一、命名 对于理解应用程序的逻辑流,命名方案是最有影响力的一种帮助。名称应该说明“什么”而不是“如何”
- 很多学习Android程序设计的人都会发现每个人对代码的写法都有不同的偏好,比较明显的就是对控件响应事件的写法的不同。因此本文就把这些写法总
- 环境配置:Jdk1.8 + Tomcat8.5 + mysql + Eclispe(IntelliJ IDEA,Eclispe,MyEcli
- 一般使用@RequestBody接收的时候报400都是传入的json字符串和对应封装的对象不对应造成的首先要注意封装的对象中的字段类型有没有
- 使用lzma SDK对7z文件简单解压缩有时候我们只需要单纯对lzma算法压缩的7z文件进行解压,有时需要在嵌入式设备上解压,使用p7zip
- 设置OpenFeign的FeignClient的Header信息在微服务间使用Feign进行远程调用时需要在 header 中添加信息,那么
- 这篇文章主要介绍了Java如何利用return结束方法调用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要
- 前言一个说难不难,说简单竟看不出来是哪里问题的一个bug。是的 可能自己能力和经验尚浅无法识别,下面你们能否用火眼金睛一眼让bug原形毕露(
- 之前的文章都是讲解springmvc+spring+mybatis 的整合,而很少有springmvc+spring+hibernate 因
- 直接插入排序直接插入排序的思路很容易理解,它是这样的:1.把待排序的数组分成已排序和未排序两部分,初始的时候把第一个元素认为是已排好序的。2
- 登录添加验证码是一个非常常见的需求,网上也有非常成熟的解决方案,其实,要是自己自定义登录实现这个并不难,但是如果需要在 Spring Sec
- 1.System.currentTimeMills():得到当前时间距离时间原点的毫秒数,返回值是Long类型的整数。代码演示:public
- 大家好,今天我们继续来学习Android 8.0系统的适配。之前我们已经讲到了,Android 8.0系统最主要需要进行适配的地方有两处:应
- Handler是用于操作线程内部的消息队列的类。这有点绕,没关系,我们慢慢的来讲。前面Looper一篇讲到了Looper是用于给线程创建消息
- 为什么要使用Lambda?可以对一个接口进行非常简洁的实现。Lambda对接口的要求?接口中定义的抽象方法有且只有一个才可以。传统实现一个接
- 最近微框架spring-boot很火,笔者也跟风学习了一下,废话不多说,现给出一个读取配置文件的例子。首先,需要在pom文件中依赖以下jar
- #define只加一个参数 的解释<stdio.h> 里有:#ifndef __STDIO_H #define &n
- 一、什么时候会加载类?使用到类中的内容时加载:有三种情况1.创建对象:new StaticCode();2.使用类中的静态成员:Static
- 本文实例讲述了Android实现学生管理系统,分享给大家供大家参考。具体如下:(1)管理系统实现的功能主要是:学生、教师的注册登录,和选课,
- 编译常见问题在开发过程中,有碰到过一些由于编译优化导致的代码修改并不符合我们预期的情况。这也就是之前为什么我经常说编译产物其实是不太可以被信