python实现中文分词FMM算法实例
作者:Sephiroth 发布时间:2022-07-31 18:40:55
标签:python,中文,分词
本文实例讲述了python实现中文分词FMM算法。分享给大家供大家参考。具体分析如下:
FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束。
import re
def PreProcess(sentence,edcode="utf-8"):
sentence = sentence.decode(edcode)
sentence=re.sub(u"[。,,!……!《》<>\"'::?\?、\|“”‘';]"," ",sentence)
return sentence
def FMM(sentence,diction,result = [],maxwordLength = 4,edcode="utf-8"):
i = 0
sentence = PreProcess(sentence,edcode)
length = len(sentence)
while i < length:
# find the ascii word
tempi=i
tok=sentence[i:i+1]
while re.search("[0-9A-Za-z\-\+#@_\.]{1}",tok)<>None:
i= i+1
tok=sentence[i:i+1]
if i-tempi>0:
result.append(sentence[tempi:i].lower().encode(edcode))
# find chinese word
left = len(sentence[i:])
if left == 1:
"""go to 4 step over the FMM"""
"""should we add the last one? Yes, if not blank"""
if sentence[i:] <> " ":
result.append(sentence[i:].encode(edcode))
return result
m = min(left,maxwordLength)
for j in xrange(m,0,-1):
leftword = sentence[i:j+i].encode(edcode)
# print leftword.decode(edcode)
if LookUp(leftword,diction):
# find the left word in dictionary
# it's the right one
i = j+i
result.append(leftword)
break
elif j == 1:
"""only one word, add into result, if not blank"""
if leftword.decode(edcode) <> " ":
result.append(leftword)
i = i+1
else:
continue
return result
def LookUp(word,dictionary):
if dictionary.has_key(word):
return True
return False
def ConvertGBKtoUTF(sentence):
return sentence.decode('gbk').encode('utf-8')
dictions = {}
dictions["ab"] = 1
dictions["cd"] = 2
dictions["abc"] = 1
dictions["ss"] = 1
dictions[ConvertGBKtoUTF("好的")] = 1
dictions[ConvertGBKtoUTF("真的")] = 1
sentence = "asdfa好的是这样吗vasdiw呀真的daf dasfiw asid是吗?"
s = FMM(ConvertGBKtoUTF(sentence),dictions)
for i in s:
print i.decode("utf-8")
test = open("test.txt","r")
for line in test:
s = FMM(CovertGBKtoUTF(line),dictions)
for i in s:
print i.decode("utf-8")
运行结果如下:
asdfa
好的
是
这
样
吗
vasdiw
呀
真的
daf
dasfiw
asid
是
吗
?
希望本文所述对大家的Python程序设计有所帮助。


猜你喜欢
- 一:使用where少使用having;二:查两张以上表时,把记录少的放在右边;三:减少对表的访问次数;四:有where子查询时,子查询放在最
- 最近换了家新公司,由于是创业公司,项目基本从零开始搭建。工作几年,也没想过写点什么技术性的东西,今天突然心血来潮,哦当然,我这个人总是特别容
- 因为我的某个好友在情人节的时候秀恩爱,所以我灵光一闪制作了qq消息轰炸并记录了下来。首先我的编程环境是:windows 10系统python
- Canal是阿里巴巴旗下的一款开源项目,利用Java开发。主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费,目前主要支持M
- 序列化模块import pickle序列化和反序列化把不能直接存储的数据变得可存储,这个过程叫做序列化。把文件中的数据拿出来,回复称原来的数
- MySQL超长字符截断又名"SQL-Column-Truncation",是安全研究者Stefan Esser在2008
- 关于电脑的垃圾清理操作,已经有很多的成熟的软件可以帮助我们完成C盘的垃圾清理操作,比如360等等。但是使用三方的清理软件往往伴随着很多的广告
- 1、基础概念什么是网络编程?指在网络环境中,如何实现不在同一物理位置中的计算机之间进行数据通信如果要保证数据通信顺利完成,则需要先了解如下几
- 我们可用一个函数来实现小数转分数,不过只能转换能够整除的分数:Public Function XtoF(str 
- 原来的语句是这样的: select sum(sl0000) from xstfxps2 where dhao00 in ( select d
- 需求目标执行Python程序的时候在控制台输出内容的时候只显示一行,然后自动刷新内容,像这样:Downloading File FooFil
- Python自带的pdb库,发现用pdb来调试程序还是很方便的,当然了,什么远程调试,多线程之类,pdb是搞不定的。用pdb调试有多种方式可
- 具体的upgrade脚本如下:动态删除索引DROP PROCEDURE IF EXISTS UPGRADE;DELIMITER $$CREA
- Git修改已提交的commit注释两种情况:修改最后一次注释1、在命令行输入如下命令,然后回车:git commit --amend2、在命
- 引言vcf文件的全称是variant call file,即突变识别文件,它是基因组工作流程中产生的一种文件,保存的是基因组上的突变信息。通
- 一、修改密码1.1 创建修改密码控制器运行命令php artisan make:controller Auth/PasswordContro
- 在节点之间再应用一些排序逻辑,二叉树就能提供出色的组织方式。对于每个节点,都让满足所有特定条件的元素都位于左节点及其子节点。在插入新元素时,
- 导入注意点:使用phpmyadmin或navicat之类的工具的导入功能还是会相当慢,可以直接使用mysql进行导入导入命令如下:mysql
- 1 logging模块简介logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文
- 1.INSERT INTO SELECT语句 语句形式为:Insert into Table2(field1,field2,...) sel