python实现机械分词之逆向最大匹配算法代码示例
作者:lalalawxt 发布时间:2022-01-02 08:16:27
标签:python,分词算法
逆向最大匹配方法
有正即有负,正向最大匹配算法大家可以参阅https://www.jb51.net/article/127404.htm
逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。
逆向最大匹配算法python实现:
分词文本示例:
分词词典words.xlsx示例:
#!/usr/bin/env python
#-*- coding:utf-8 -*-
'''''
用逆向最大匹配法分词,不去除停用词
'''
import codecs
import xlrd
#读取待分词文本,readlines()返回句子list
def readfile(raw_file_path):
with codecs.open(raw_file_path,"r",encoding="ANSI") as f:
raw_file=f.readlines()
return raw_file
#读取分词词典,返回分词词典list
def read_dic(dic_path):
excel = xlrd.open_workbook(dic_path)
sheet = excel.sheets()[0]
# 读取第二列的数据
data_list = list(sheet.col_values(1))[1:]
return data_list
#逆向最大匹配法分词
def cut_words(raw_sentences,word_dic):
word_cut=[]
#最大词长,分词词典中的最大词长,为初始分词的最大词长
max_length=max(len(word) for word in word_dic)
for sentence in raw_sentences:
#strip()函数返回一个没有首尾空白字符(‘\n'、‘\r'、‘\t'、‘')的sentence,避免分词错误
sentence=sentence.strip()
#单句中的字数
words_length = len(sentence)
#存储切分出的词语
cut_word_list=[]
#判断句子是否切分完毕
while words_length > 0:
max_cut_length = min(words_length, max_length)
for i in range(max_cut_length, 0, -1):
#根据切片性质,截取words_length-i到words_length-1索引的字,不包括words_length,所以不会溢出
new_word = sentence[words_length - i: words_length]
if new_word in word_dic:
cut_word_list.append(new_word)
words_length = words_length - i
break
elif i == 1:
cut_word_list.append(new_word)
words_length = words_length - 1
#因为是逆向最大匹配,所以最终需要把结果逆向输出,转换为原始顺序
cut_word_list.reverse()
words="/".join(cut_word_list)
#最终把句子首端的分词符号删除,是避免以后将分词结果转化为列表时会出现空字符串元素
word_cut.append(words.lstrip("/"))
return word_cut
#输出分词文本
def outfile(out_path,sentences):
#输出模式是“a”即在原始文本上继续追加文本
with codecs.open(out_path,"a","utf8") as f:
for sentence in sentences:
f.write(sentence)
print("well done!")
def main():
#读取待分词文本
rawfile_path = r"逆向分词文本.txt"
raw_file=readfile(rawfile_path)
#读取分词词典
wordfile_path = r"words.xlsx"
words_dic = read_dic(wordfile_path)
#逆向最大匹配法分词
content_cut = cut_words(raw_file,words_dic)
#输出文本
outfile_path = r"分词结果.txt"
outfile(outfile_path,content_cut)
if __name__=="__main__":
main()
总结
分析分词结果可以知道,机械分词的效果优劣,一方面与分词匹配算法有关,另外一方面极其依赖分词词典。所以若想得到好的分词效果,处理相关领域的文本时,需要在分词词典中加入特定领域的词汇。
来源:http://blog.csdn.net/lalalawxt/article/details/75477931
0
投稿
猜你喜欢
- 本文实例为大家分享了python Tkinter版学生管理的具体代码,供大家参考,具体内容如下Tkinter是python自带的UI包,无需
- 以前经常吃公司旁边的食堂,人多,排队。夏天的时候,我们总要找一个靠窗口通风好的地方坐,没有空调只有风扇,风扇很多,开关都集中在一个地方,应该
- 本文实例为大家分享了Python函数式编程实现登录注册功能的具体代码,供大家参考,具体内容如下代码:def login(username,
- 一张表(ColumnTable)的结构如下图所示当前需要实现的功能:通过Number的值为67来获取当前的节点ID、父节点ID递归实现SQL
- 今天因为做一个效果的时候需要CSS的定位来实现,于是我就根据自己原来对CSS的了解,用absolute和relative摆弄了好一阵子,总是
- 侧边栏在响应式设计中起到很大的作用,当屏幕小到手机的屏幕时,能够自适应屏幕大小的侧边栏固然能够为网站添加色彩,那么在Bootstrap的框架
- 国外的空间和我们国内的空间使用的语言系统一般不一样,所以在网页程序上时如果处理不当很容易出现乱码,看了让人摸不着头脑。所以我们在编写程序时就
- 最近小编遇到一个奇葩问题,就是上传代码时拷贝vs里面的代码不能直接粘贴,否则空格会不符合要求,怎么解决此问题呢?下面小编给大家分享我的解决方
- Python编写微信小游戏“跳一跳”的运行脚本,分享给大家。更新了微信后发现了一款小游戏跳一跳,但是玩了一下午最高才达到200,每次差点破纪
- 这篇文章主要介绍了Python3如何对urllib和urllib2进行重构,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参
- 一、闭包闭包相当于函数中,嵌套另一个函数,并返回。代码如下:def func(name): # 定义外层函数 def inner
- 本文实例讲述了python中管道用法。分享给大家供大家参考。具体如下:#!coding=utf-8import multiprocessin
- 从小的方面讲,帮助一般是指:手册、说明书、文档、FAQ 等等。从大的方面讲,可以是交互过程中的提示、指引、演示等信息,帮助无处不在!这一切,
- 文件名称:ByVal.aspByRef.asp具体代码:<%Sub TestMain()Dim A : A=5Call TestBy(
- 前言ThinkPHP 3.2 基于 ThinkPHP 3.1 的基础上有许多的变化,我觉得这个版本应该设立为 ThinkPHP 4.0 而不
- 以下是YUI中不建议用的一些说明: 表达式的问题就在于它的计算频率要比
- 在上一期中作者向诸位简要介绍了 ASP 脚本语言之一 VBScript 的一些基本常识,本期将继续给大家讲解 VBScript 的脚本编写方
- 该平台会集成UI自动化及api自动化,里面也会涉及到一些简单的HTML等前端,当然都是很基础的东西。在以后的博客里,我会一点点的尽量写详细,
- 方法一:在php中,抓取https的网站,提示如下的错误内容:Warning: file_get_contents() [function.
- 一提起Google的产品,大多数人可能都会想到用一个词来形容,“简洁”。简单得来又实用,这就是Google的产品设计方针了。Jon Wile