Python第三方库jieba库与中文分词全面详解
作者:Argonaut_ 发布时间:2022-03-14 22:32:40
标签:python,jieba库,中文分词
一、什么是jieba库
jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。
二、jieba分词原理
jieba库的分词原理是利用了一个中文词库,将待分词的内容与分词词库对比,通过图结构和动态规则划分方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
三、jieba库支持的三种分词模式
1.精确模式
将句子最精确地分开,适合文本分析;
2.全模式
把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
3.搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
注:对中文分词来说,jieba库只需要一行代码即可。英文文本不存在分词问题
四、jieba库常用函数
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回一个列表值 |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表值 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表值 |
jieba.add_word(w) | 向分词词典中增加新词w |
五、jieba实操
练习一(jieba.lcut)精确模式
jieba.lcut(s)是最常用的中文分词函数,用于精确模式,将字符串分割成等量的中文词组。
import jieba
ls = jieba.lcut("我愿意穿过璀璨繁星")
print(ls)
练习二(jieba.lcut(s,cut_all=True) )全模式
jieba.lcut(s,cut_all=True)用于全模式,将字符串的所有分词可能列出来,冗余最大。
import jieba
ls = jieba.lcut("人面不知何处去,桃花依旧笑春风", cut_all=True)
print(ls)
练习三(jieba.lcut_for_search)搜索引擎模式
jieba.lcut_for_search该模式首先执行精确模式,然后在对其中长词进一步分获得最终结果
import jieba
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
print(ls)
练习四(jieba.add_word(w))增加新词
import jieba
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
小结:精确模式因为不产生冗余,最为常用。
总结
来源:https://blog.csdn.net/Argonaut_/article/details/123598613


猜你喜欢
- Linux系统下调用动态库(.so) 1、linuxany.c代码如下: #include "stdio.h"
- python字符串连接的方法,一般有以下三种:方法1:直接通过加号(+)操作符连接website = 'python' +
- 如下所示:func Caller(skip int) (pc uintptr, file string, line int, ok bool
- 情况1:在一个目录下面只有文件,没有文件夹,这个时候可以使用os.listdir在我们的桌面上有一个file目录(文件夹),里面有三个文件f
- 前言和Word、Excel承载数据的能力相比,PPT的应用重点在于表演。比如一场发布会、一场演说、一次产品展示、一次客户沟通&hel
- 在python3.6版本中去掉了os.path.walk()函数os.walk()函数声明:walk(top,topdown=True,on
- 数据探索性分析(EDA)1. 总览数据概况数据库载入#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。imp
- 前言今天笔者想和大家来聊聊python接口自动化如何使用requests库发送http请求,废话呢笔者就不多说了,直接进入正题。一、requ
- 本文实例为大家分享了Bootstrap实现渐变顶部固定自适应导航栏的具体代码,供大家参考,具体内容如下具体代码如下所示:<!DOCTY
- 1,System.ComponentModelSystem.ComponentModel 命名空间提供用于实现组件和控件的运行时和设计时行为
- 一、步骤要从 JPEG 图像中获取经纬度信息,可以使用 Python 的 PIL(Python Imaging Library)库。以下是一
- 在ASP.NET2.0通过SMTP的验证发送EMAIL ,代码如下:’Create a new MailMes
- [Python标准库]decimal——定点数和浮点数的数学运算 &n
- 我们现在使用的验证手段都是以验证码为主,让用户根据图片输入验证字符,这种方法的安全度尚可,但会给用户带来一些不便和困扰,比如这个雅虎的验证码
- 这篇文章主要介绍了Python OpenCV视频截取并保存实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- 首先我们来看看原图:接着我们来看看效果图:通过分析我们不难发现以下特征:主要颜色为黑白灰边界线条较重相同或相近色趋于白色略有光源效果需要用到
- 1. 笛卡尔乘积表1有m行数据,表2有n行数据,查询结果有m*n行数据。2. 分类(1)按年代分类sql92标准:仅支持内连接sql99标准
- 1、在Python中以相对路径或者绝对路径来导入文件或者模块的方法今天在调试代码的时候,程序一直提示没有该模块,一直很纳闷,因为我导入文件一
- 一年一度的双十一就快到了,各种砍价、盖楼、挖现金的口令将在未来一个月内充斥朋友圈、微信群中。玩过多次双十一活动的小编表示一顿操作猛如虎,一看
- 这是一个基于Go语言开发的单点登录系统,实现手机号注册、手机号+验证码登录、手机号+密码登录、账号登出等功能,用户认证采用cookie和jw