位置：首页>> 网络编程>> Python编程>> Python jieba库用法及实例解析

Python jieba库用法及实例解析

作者：王陸　　发布时间：2021-04-15 22:11:44　

标签：python,jieba,库

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

- 中文文本需要通过分词获得单个的词语
- jieba是优秀的中文分词第三方库，需要额外安装
- jieba库提供三种分词模式，最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库，确定汉字之间的关联概率
- 汉字间概率大的组成词组，形成分词结果

- 除了分词，用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

- 精确模式：把文本精确的切分开，不存在冗余单词
- 全模式：把文本中所有可能的词语都扫描出来，有冗余
- 搜索引擎模式：在精确模式基础上，对长词再次切分

(2)、jieba库常用函数

2.jieba应用实例

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数

for word in words:
if len(word) == 1: # 单个词语不计算在内
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍历所有词语，每出现一次其对应的值加 1

items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序

for i in range(15):
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count))

统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会发现得到的数据还是需要进一步处理，比如一些无用的词语，一些重复意思的词语。

来源：https://www.cnblogs.com/wkfvawl/p/9487165.html

0

投稿

猜你喜欢

单利模式及python实现方式详解
单例模式单例模式（Singleton Pattern）是一种常用的软件设计模式，该模式的主要目的是确保某一个类只有一个实例存在。当希望在
浅谈python for循环的巧妙运用(迭代、列表生成式)
介绍我们可以通过for循环来迭代list、tuple、dict、set、字符串，dict比较特殊dict的存储不是连续的，所以迭代（遍历）出
MySQL中XML数据的XPath支持
今天我要为大家介绍的是XPath，XPath是导航和查询XML文档的语言。我们从一个函数开始。UpdateXML()函数我们已经花了很多时间
YUI学习笔记（4）
YAHOO.util.Subscriber 与 YAHOO.util.CustomEvent。1. YAHOO
Django框架首页和登录页分离操作示例
本文实例讲述了Django框架首页和登录页分离操作。分享给大家供大家参考，具体如下：1.登录模板login.html<!DOCTYPE
Python 面向对象成员的访问约束
在Python中是通过一套命名体系来识别成约的访问范围的 class MyObjec(object): username = "d
pytorch tensor计算三通道均值方式
tensor计算三通道均值今天用pytorch处理图像时，涉及到了计算均值的问题，整理一下解决思路。第一种思路tensor转换为numpy再
python3 中时间戳、时间、日期的转换和加减操作
1.当前时间戳转换为指定格式的日期# -*- coding: utf-8 -*-# @Time : 2019/5/31 10:5
Python爬虫入门案例之爬取二手房源数据
本文重点系统分析网页性质结构化的数据解析csv数据保存环境介绍python 3.8pycharm 专业版 >>> 激活码#
PHP封装CURL扩展类实例
本文实例讲述了PHP封装CURL扩展类。分享给大家供大家参考。具体如下：<?php/*** @description: 封装CURL扩
MySQL权限详解
一.权限表mysql数据库中的3个权限表：user 、db、 host权限表的存取过程是：1)先从user表中的host、 user、 pa
ASP+ajax注册即时提示程序代码
1、注册时验证数据库用户名是否存在。 2、输入密码时提示密码强度和验证2次密码输入是否一样。 3、注册时验证数据库联系邮箱是否存在。 4、注
python关闭print输出信息详情
有时候我们需要关闭print输出信息，我们可以通过控制sys.stdout来实现print输出的开关一个简单的示例如下：import sys
ASP.NET MVC实现区域或城市选择
每次在"万达影城"网上购票总会用到左上角选择城市的功能。如下：今天就在ASP.NET MVC中实现一下。我想最好的方式应
使用C#配合ArcGIS Engine进行地理信息系统开发
简单的地图读取、展示终于到暑假了。。。开始认真整理整理相关学习的心得体会咯~先把很久之前挖的关于C# 二次开发的坑给填上好了~ 这次先计划用
在Internet Explorer中正确使用MSXML
我参与了IE7的开发过程，看到了在IE浏览器中形形色色使用MSXML的方法。显然有一些东西困扰着开发者：MSXML“混乱”的版本以及如何创建
css实现简单圆角效果
目前，我们要在网页中使用圆角效果，总是通过切图然后嵌套很多div，用背景来实现圆角效果。对于前端开发工程师来说，圆角的确是一个让人又爱又恨的
解决hive中导入text文件遇到的坑
今天帮一同学导入一个excel数据，我把excel保存为txt格式，然后建表导入，失败！分隔符格式不匹配，无法导入！！！！怎么看两边都是\t
用Python在Excel里画出蒙娜丽莎的方法示例
之前看到过很多头条，说哪国某人坚持了多少年自学使用excel画画，效果十分惊艳。对于他们的耐心我十分敬佩。但是作为一个程序员，自然也得挑
MYSQL 字符串操作
ASCII(str) 返回字符串str的第一个字符的ASCII值(str是空串时返回0)mysql> select ASCII(

python将html转成PDF的实现代码(包含中文)

用pushplus+python监控亚马逊到货动态推送微信

python3+PyQt5使用数据库窗口视图

Django集成CAS单点登录的方法示例

如何通过Python的pyttsx3库将文字转为音频

Python实现炸金花游戏的示例代码

python 实现删除文件或文件夹实例详解

python读取raw binary图片并提取统计信息的实例

django注册用邮箱发送验证码的实现

详谈python3 numpy-loadtxt的编码问题

excel表格标题设置方法

新款‌MacBook Air‌或于2022年发布也会采用mini LED屏

微软Windows 10 Cloud曝光：比WinRT更秒

Win7 update部分更新没有安装错误代码80246008

wps如何插入图书名称

内部链接nofollow控制权重分布

Win11出现错误代码,驱动程序丢失进不去系统解决方法

Excel使用定义名称的超级链接

如何查找iPad序列号.UDID.IMEI.ICCID等符号信息

iPhone14黑屏怎么办？iPhone14锁屏界面卡死解决办法

手机版 网络编程 asp之家 www.aspxhome.com