Python jieba分词添加自定义词和去除不需要长尾词的操作方法
作者:虚坏叔叔 发布时间:2023-05-05 11:20:35
标签:Python,jieba,分词
Python jieba分词如何添加自定义词和去除不需要长尾词
通过如下代码,读取一个txt的高频词汇:
# 找到高频词汇
tmp_content = self.getContent(tmp_path)
keyword_list = tmp_content.split('\n')
word_count = dict()
for keyword in keyword_list:
for word,flag in jp.cut(keyword):
if word in word_count:
word_count[word] = word_count[word] +1
else:
word_count[word] =1
for word, count in word_count.items():
print('%s\t%s' % (word,count))
很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下
建立
和 可视化
是2个独立的单词
一、添加自定义词
通过添加自定义词
import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')
就可以看到,统计出来的词是这个自定义词
二、去除不需要长尾词
有时 统计出来的某些词汇jieba
认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:
import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')
此时 jieba 就会不认定 创建活动
是一个词,它会将它们分开统计
总结
本文主要介绍jieba的基础用法。
来源:https://blog.csdn.net/biggbang/article/details/129260648


猜你喜欢
- openpyxl是一个读写Excel文档的Python库,能够同时读取和修改Excel文档。openpyxl是一个开源项目,因此在使用之前需
- 如下所示:在def __init__(self):函数里添加self.setFixedSize(self.width(), self.hei
- 前言一个函数就可以接收另一个函数作为参数,简言之,函数的参数能够接收别的函数,这种函数就称之为高阶函数JavaScript 的高阶函数跟 S
- 一、Tensor 之间的运算规则相同大小 Tensor 之间的任何算术运算都会将运算应用到元素级不同大小 Tensor(要求dimensio
- 1、过滤器的用法,用 ‘|' 分割表达式和过滤器。例如:{{ msg | filter}} &nb
- SQL Server日期计算 通常,你需要获得当前日期和计算一些其他的
- DropPath/drop_path 是一种正则化手段,其效果是将深度学习模型中的多分支结构随机”删除&ldqu
- 背景小程序在网络层提供的API是能够完成一个程序与服务端交互的完整链路,但需要大量的定制化代码,才能实现请求拦截和响应拦截,不太符合大多数开
- select先说switch...case...switch...case... 很常用,且很好理解。其作用和if...else...一样。
- [code]<script> var a=4.2343; alert(a.toFixed(3)); </script>
- 使用.net2005自带的SQL-Express连接不上。解决方法:1.网络防火墙阻止数据库连接;2.默认SQL-Express没有启动Sa
- 作为近两年来最火的编程语言的python,受到广大程序员的追捧必然是有其原因的,如果要挑出几点来讲的话,第一条那就python语法简洁,易上
- usageerror: line magic function "%%time" not found在使用IPython
- 当数据库服务器变得十分繁忙导致性能下降时,你会怎么办?购买更多的硬件升级你的服务器,还是重新考虑数据库服务器设计使得数据库平台具备良好的可升
- 1.需求:在后台添加一条数据的同时要把添加者记录到表中。2.models.pyclass Setting(models.Model): &
- DBA_2PC_PENDING Oracle会自动处理分布事务,保证分布事务的一致性,所有站点全部提交或全部回滚。一般情况下,处理过程在很短
- 本文实例讲述了python求众数问题的方法,是一个比较典型的应用。分享给大家供大家参考。具体如下:问题描述:多重集中重数最大的元素称为众数.
- 测试用例我们分别在用户数据库(testpage),tempdb中创建相似对象t1,#t1,并在tempdb中创建创建非临时表,然后执行相应的
- 简单说下原理,把显示的图片的<img>标签 和上传文件的 <input> 标签放在同一个div下,设置<img
- 组合模式是把一个类别归为一个整体,并且组织多个整体之间的关系,使用通过树形结构来描述所有整体。一般的编写方式为一个类别对象下添加多个该对象的