Python jieba结巴分词原理及用法解析
作者:南风丶轻语 发布时间:2023-08-29 17:43:36
标签:Python,jieba,结巴,分词
1、简要说明
结巴分词支持三种分词模式,支持繁体字,支持自定义词典
2、三种分词模式
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下
搜索引擎模式:在精简模式下,对长词再度切分
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
str1 = '我去北京天安门广场跳舞'
a = jieba.lcut(str1, cut_all=True) # 全模式
print('全模式:{}'.format(a))
b = jieba.lcut(str1, cut_all=False) # 精简模式
print('精简模式:{}'.format(b))
c = jieba.lcut_for_search(str1) # 搜索引擎模式
print('搜索引擎模式:{}'.format(c))
运行
3、某个词语不能被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
str1 = '桃花侠大战菊花怪'
b = jieba.lcut(str1, cut_all=False) # 精简模式
print('精简模式:{}'.format(b))
# 如果不把桃花侠分开
jieba.add_word('桃花侠')
d = jieba.lcut(str1) # 默认是精简模式
print(d)
运行
4、 某个单词必须被分开
# -*- encoding=utf-8 -*-
import jieba
if __name__ == '__main__':
# HMM参数,默认为True
'''HMM 模型,即隐马尔可夫模型(Hidden Markov Model, HMM),是一种基于概率的统计分析模型,
用来描述一个系统隐性状态的转移和隐性状态的表现概率。
在 jieba 中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,
其大致原理是:
采用四个隐含状态,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。
通过标注好的分词训练集,可以得到 HMM 的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
'''
str1 = '桃花侠大战菊花怪'
b = jieba.lcut(str1, cut_all=False, HMM=False) # 精简模式,且不使用HMM模型
print('精简模式:{}'.format(b))
# 分开大战为大和战
jieba.suggest_freq(('大', '战'), True)
e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
print('分开:{}'.format(e))
运行
来源:https://www.cnblogs.com/rainbow-tan/p/13365253.html


猜你喜欢
- 本文主要展示了使用matplotlib设计logo的示例及完整代码,首先看下其演示结果:Python代码如下:import numpy as
- 概述做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出
- eval函数就是实现list、dict、tuple与str之间的转化str函数把list,dict,tuple转为为字符串一、字符串转换成列
- 同时,关于datetime也是简单介绍。因为有很多东西需要自己去使用,去查帮助才最有效。例子:计算上一个星期五并输出。解答:import d
- 本文实例讲述了Symfony2实现从数据库获取数据的方法。分享给大家供大家参考,具体如下:假设有一张表:test, 字段:name,colo
- 在SQL Server中进行开发会让你身处险地,并且寻找快速解决方案。我们编辑了前十名关于SQL Server开发的常见问题。对常见的针对表
- 一、什么是super1.super也是一个类,是的。他不是一个方法也不是一个内置的关键字。class A: pas
- 使用Python进行数据分析,大家都会多少学习一本经典教材《利用Python进行数据分析》,书中作者使用了Ipython的交互环境进行了书中
- 背景:因为工作需要,公司给每个员工都分配了一个邮箱 公司的各种业务都通过邮箱发送。虽然给每个员工的电脑都设置pop3登录但是他们的程序设定有
- TensorFlow训练网络有两种方式,一种是基于tensor(array),另外一种是迭代器两种方式区别是:第一种是要加载全部数据形成一个
- python数据分析工具pandas中DataFrame和Series作为主要的数据结构.本文主要是介绍如何对DataFrame数据进行操作
- 一、I/O模型IO在计算机中指Input/Output,也就是输入和输出。由于程序和运行时数据是在内存中驻留,由CPU这个超快的计算核心来执
- 本文实例讲述了python config文件的读写操作。分享给大家供大家参考,具体如下:1、设置配置文件[mysql]host = 1234
- pytorch和numpy默认浮点类型位数numpy中默认浮点类型为64位,pytorch中默认浮点类型位32位测试代码如下numpy版本:
- package com.groundhog.codingmouse; import java.sql.Connection; import
- Python编写一个简易银行账户系统,供大家参考,具体内容如下文章中主要涉及的方法是Python中的open(filename, ‘r
- Python 中的 main 函数充当程序的执行点,在 Python 编程中定义 main 函数是启
- python实现收支的自动计算,能够查询每笔账款的消费详情,具体内容如下1、函数需要两个文件:一个类似钱包功能,存放钱;另一个用于记录每笔花
- 网页情况爬取数据包含歌曲排名、歌手、歌曲名、歌曲时长python 代码import requests #请求网页获取网页数据 f
- 关于with cube ,with rollup 和 grouping通过查看sql 2005的帮助文档找到了CUBE 和 ROLLUP 之