Python jieba库分词模式实例用法
作者:十一 发布时间:2023-12-09 23:40:42
标签:Python,jieba,分词模式
在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式、全模式、搜索引擎模式。也对应着三种方式,包括jieba.cut()方法、jieba.lcut()方法、jieba.cut_for_search()方法。下面就为大家实例操作这些分词模式,以及方法的使用,一起来了解下吧。
全模式:
import jieba
seg_list = jieba.cut("南京市长江大桥欢迎你。", cut_all=True)
print(type(seg_list),seg_list)
精确模式:
seg_list1 = jieba.lcut("南京市长江大桥欢迎你。", cut_all=False)
print(type(seg_list1),seg_list1)
搜索模式:
seg_list2 = jieba.cut_for_search("南京市长江大桥欢迎你。")
print(type(seg_list2),seg_list2)
print("全模式:" + "/ ".join(seg_list))
print("精确模式:" + "/ ".join(seg_list1))
print("搜索引擎模式:" + "/ ".join(seg_list2))
输出结果:
全模式:南京/ 南京市/ 京市/ 市长/ 长江/ 长江大桥/ 大桥/ 欢迎/ 你/ 。
精确模式:南京市/ 长江大桥/ 欢迎/ 你/ 。
搜索引擎模式:南京/ 京市/ 南京市/ 长江/ 大桥/ 长江大桥/ 欢迎/ 你/ 。
内容扩展:
获取词性
我们还可以通过jiaba这个库把词性进行区分,比如动词,名词等
import jieba.posseg as psg
seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list])
# [('我', 'r'), ('要', 'v'), ('进行', 'v'), ('关键词', 'n'), ('提取', 'v')]
我们还可以提取动词或者名词,我们来提取下里面的动词
import jieba.posseg as psg
seg_list = psg.cut("我要进行关键词提取")
print([(s.word, s.flag) for s in seg_list if s.flag.startswith('v')])
来源:https://www.py.cn/jishu/jichu/22888.html


猜你喜欢
- 本文实例为大家分享了python学生管理系统的具体代码,供大家参考,具体内容如下类class Student: stuID = "
- declare @t varchar(255),@c varchar(255)declare table_cursor cursor for
- 1.首先安装依赖包,避免在安装过程中出现问题[root@chufeng yusen]# yum -y install wget vim ba
- 您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ?我们先抛开 g
- 在神经网络训练中,好的权重 初始化会加速训练过程。下面说一下kernel_initializer 权重初始化的方法。不同的层可能使用不同的关
- Python编程:函数函数是带名字的代码块,用于完成具体的工作。要执行函数定义的特定任务,可调用该函数。需要在程序中多次执行同一项任务时,你
- 第一种方法:<meta http-equiv="X-UA-Compatible" content="IE
- 🌟 写在前面专栏介绍:凉哥作为 Vue 的忠实 粉丝输出过大量的 Vue 文章,应粉丝要求开始更新 Vue3 的相关技术文章,Vue 框架目
- 前言最近因为业务需求,就写了这个脚本,脚本完成的任务是从FTP上下载一个目录,大家都知道从FTP上下载一个文件可用用get命令,下载多个文件
- 示意图:python双向链表实现代码:#!/usr/bin/python# -*- coding: utf-8 -*-class Node(
- digo工具地址:https://github.com/werbenhu/digo特性使用注释中的注解自动代码生成自动检测循环依赖编译时期依
- #!/usr/bin/env python# -*- coding: utf-8 -*-'''''
- 如何比较两个go对象完全相同在go语言中,要比较两个对象是否完全相同,我们可以使用以下三种方法:方法一:使用reflect.DeepEqua
- 首先,我们来随便写一个带空格的列表:list1 = ['122','2333','3444'
- 以下来自Stack Overflow从上面我们可以很清晰的看出应该如何使用matplotlib的figure方法。补充知识:matplotl
- 主要是要注意权限的问题,一般做发布/订阅,建议你做如下准备工作: 1.发布服务器,订阅服务器都创建一个同名的windows用户,并设置相同的
- 这种情况在挂载脚本后无法答题,任何关于答题脚本的脚本都无法使用。看这个字体,已经读不出原文了,一开始以为是加密尝试使用加密算法破解,然后用B
- 印刷和网络是不一样的。传统的布局排版并不适于网络,因为传统的印刷布局,几乎只想要什么样的平面效果都能很好的达到,但在网络上设计就很困难,尽管
- 调用的api接口:https://api.exchangerate-api.com/v4/latest/USD完整代码import requ
- 识别快递单号这次跟老师做项目,这项目大概是流水线上识别快递上的快递单号。首先我尝试了解条形码的基本知识 百度百科:条形码 条形码(barco