网络编程
位置:首页>> 网络编程>> Python编程>> Python jieba分词添加自定义词和去除不需要长尾词的操作方法

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

作者:虚坏叔叔  发布时间:2023-05-05 11:20:35 

标签:Python,jieba,分词

Python jieba分词如何添加自定义词和去除不需要长尾词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

通过如下代码,读取一个txt的高频词汇:

# 找到高频词汇
           tmp_content = self.getContent(tmp_path)
           keyword_list = tmp_content.split('\n')
           word_count = dict()
           for keyword in keyword_list:
               for word,flag in jp.cut(keyword):
                   if word in word_count:
                       word_count[word] = word_count[word] +1
                   else:
                       word_count[word] =1
           for word, count in word_count.items():
               print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

一、添加自定义词

通过添加自定义词

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

就可以看到,统计出来的词是这个自定义词

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

Python jieba分词添加自定义词和去除不需要长尾词的操作方法

总结

  • 本文主要介绍jieba的基础用法。

来源:https://blog.csdn.net/biggbang/article/details/129260648

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com