位置：首页>> 网络编程>> Python编程>> python使用jieba实现中文分词去停用词方法示例

python使用jieba实现中文分词去停用词方法示例

作者：circle元　　发布时间：2021-02-04 11:27:17　

标签：python,jieba,中文分词

前言

jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

支持三种分词模式

1 精确模式，试图将句子最精确地切开，适合文本分析；

2 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

3 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")
# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)
# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。
#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /
#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
if word.encode("utf-8")not in stopwords:
stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

来源：http://www.cnblogs.com/52circle/p/8540511.html

0

投稿

猜你喜欢

网页常用特效整理：初级篇
笔者日积月累了许多精彩、实用的Web特效的制作，这些特效几乎都是比较常用的网页特效。现在我就把这些经过
removeChild的障眼法
今天在经纬同学blog看到的。有这么一段代码：<ul id="demo"><li>
MySQL查询不含周末的五天前的日期
我需要查询从现在算起五天前的日期。按照商业习惯，这五天应该不包含星期六和星期天。专家回答：对于许多跟商业日期有关的情况，最好的解决方案是使用
EXECUTE IMMEDIATE用法小结
它解析并马上执行动态的SQL语句或非运行时创建的PL/SQL块.动态创建和执行SQL语句性能超前，EXECUTE IMMEDIATE的目标在
在线HTML编辑器原理（eweb原理）
为什么能实现在线编辑呢? 首先需要ie 的支持，在 ie 5.5以后就有一个编辑状态，就是利用这个编辑状态,然后用javascript 来控
随机显示图片
随机显示图片代码：<div class="sidebarcen"><script language=&
关于VSCode 配置使用 PyLint 语法检查器的问题
1.首先安装 “Python” 插件2.安装 pylint 语法检查器推荐安装在当前的 Python
Oracle学习笔记(一)
一.基本的查询语句，特殊符号||。制定列的别名AS，唯一标示distinct1.字符连接符“||”与“+”符oracle：select &n
开发iPhone版校友录
这几天忙个合作，开发iPhone版校友录。用了很久的iPhone，为它量身定制一套页面还是头一次，好在限制不是很多，会写html基本呈现就不
玩转表单之花样表单
表单外观的美化很多时候，我们仅仅为了实现数据采集这个功能来使用表单，常看到的表单都是“千人一面”、毫无
制定设计的原则
在我们开始一个项目的设计的时候，脑子里肯定有无数的构想。是做视觉冲击强烈、夺人眼球的绚丽风格？还是复古的拼贴风？又或者目前最in的极简主义设
如何将 Access 的 Memo 型态字段汇入到 SQL2005 的 nvarchar 型态字段
问题描述：使用 SQL 2005 w/ SP2 的汇出汇入精灵将数据从 Access 汇入到 SQL2005 发生了错误，但使用在SQL 2
Linux PHP连接MSSQL
一、软件包a) freetds-stable.gzb) php-5.2.12.tar.gz二、安装步骤a) tar zxvf freetds
FrontPage XP设计教程2——网页的编辑
阅读上一篇：FrontPage XP设计教程1——站点初建与管理接下来的工作就是读者朋友们最为关心的网页的制作和编辑了。我们知道，一个站点是
asp查询ip地址源代码
'====================================='功能:根据ip地址输出地区'参数:ip
为什么JavaScript中正则表达式的test方法会出错？
一段这样的JavaScript代码，猜猜结果如何？var i = 0, m =
js实现将选中内容分享到新浪或腾讯微博
微博如火如荼，大家都选择用微博带来社会化流量，顺便推广产品和网站，几乎所有的网站都有分享到代码，但是还有一种更快捷的分享方式，javascr
SQL学习笔记三 select语句的各种形式小结
代码如下:Select * from T_Employee select FName,FAge from T_Employee select
iis7 ASP+Access数据库连接错误
‘Microsoft OLE DB Provider for ODBC Drivers (0x80004005) [Microsoft][O
[译]在线广告及其在网页设计中的重要性
近年来，广告已成为很多网站的主要收入来源。不久前，在线广告往往遭到访客的拒绝，广告客户也不确定它的价值和效力。今天，大多数访客期望在商业网站

教你如何使用Python开发一个钉钉群应答机器人

Python数学建模StatsModels统计回归可视化示例详解

Python时间处理模块Time和DateTime

python如何发布自已pip项目的方法步骤

python实现串口通信的示例代码

python查找指定依赖包简介信息实现

python处理图片之PIL模块简单使用方法

python 爬虫百度地图的信息界面的实现方法

利用python在大量数据文件下删除某一行的例子

对python字典元素的添加与修改方法详解

Excel中如何快速合并多个单元格

如何设置路由器?

Win7软件不能固定到任务栏怎么办程序锁定到任务栏的方法

浅谈网站如何才能得以有效推广

Win7系统IE起始页被恶意篡改怎么修复为about:blank页？

微信为什么刚加我就过期了?

Windows 10 Build 10162手机版运行截图曝光全新壁纸亮相

信息过量抓取有限：谈搜索引擎相关性技

Win7系统运行软件提示应用程序无法启动的解决方法

不希望Win10驱动自动更新怎么办？微软更新隐藏工具来帮忙

手机版 网络编程 asp之家 www.aspxhome.com