中文分词的作用与概述(2)
作者:沈炜杰 来源:艾瑞网 发布时间:2007-12-29 12:49:00
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路要走。。。
好了SWJ就说到这里 大家只要能充分的了解分词技术 那么拿SEO来说 再各个方面的表现你都是不错的。但,这是没有决定性与唯一性的 不希望有人钻这个问题的牛角尖! 认真做站 多实践 多积累 多探讨 多学习!
相关推荐:ASP实现网站智能分词搜索


猜你喜欢
- 最近对网站进行了更新,是"乾坤大挪移"(换空间服务商),忘了加重定向,导致搜索引擎给我的网站降权,在落伍者和dunsh.
- 打个比方我删除了id是41的栏目,生成HTML时,生成到这个栏目时就出错,很不爽!!现在我们调整一下栏目id,把后面的提上来弥补41,也就是
- Permission denied:出现的原因的是:没有权限进行读、写、创建文件、删除文件等操作。解决方法:输入命令 sudo chmod
- 终端服务是在Windows NT中首先引入的一个服务。终端服务使用RDP协议(远程桌面协议)客户端连接,使用终端服务的客户可以在远程以图形界
- 1.更新您的source ,我们之前提过 更新source不代表升级 ,仍需要经过编译的动作。 编译source 1./usr/src#ma
- 今天和妈妈、大福一起去逛街,5小时。大福买了粉色的T恤,我买了粉色的凉鞋,妈妈买了粉色的套装。我们还买了很多吃的,每个人都知道另外的人喜欢吃
- 1. 输出重定向:默认条件下,标准输出和错误输出都是终端,可以把标准输出和错误内容进行重定向:[~]# echo "hello\!
- 每一个搜索引擎都有自己的规则,合理的SEO可以有效提高网站的排名,从而使得营销更加的容易和简单。掌握搜索引擎的算法更新技术是进行SEO的重要
- 10月29日消息,日前,百度空间(hi.baidu.com)联合娃哈哈慈善基金会,共同发起“点亮爱的心愿”大型慈善公益活动,提交自己爱心梦想
- 很多开店的新手,经过找货源、拍照、整理产品,订价格等等一系列的开店准备,本来怀着美好的憧憬开店,但是等到网店上线以后,很长一段时间没有卖出去
- 经过数月的紧张开发,TM2009系列的第二个稳定版今天发布了!这个版本增加了传文件夹、插件管理、锁定等多项功能,大大增强了实用性。TM200
- 作者:Matthew Coers译者:Sheneyan(子乌)时间:2006.07.12英文原文: Search Engine Optimi
- 石林在百度搜索“省通信管理局”的时候,本意是搜索“江苏省通信管理局”,但是本地人说起某个机构一般都会说“省某某某局”、“市某某某局”,所以和
- 北京时间11月21日消息,据国外媒体报道,Twitter首席运营官Dick Costolo今日表示,这一广受欢迎的微博服务将很快推出广告业务
- 百度提供了不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”的分析工具,即百度指数。虽然百度指数有很大的偏差,但是做为一个网络情报搜
- 每个SEOER都会因为排名而担心,一大早起来就是先看收录和排名,网站排名每天都在变,今天你是第一你就有很好的心情说搜索引擎怎么怎么好,哪天网
- vps服务器裸奔在公网上,总感觉有点不安全,没办法总得整点措施来加固下服务器呀,安全第一。linux系统自带防火墙必须要好好利用起来,可是我
- 作为一种资源的组织和表达机制,Web已成为Internet最主要的信息传送媒介。因此Web的性能已经成为判断一个网站成功与否的一个重要评估标
- 喜欢非主流的我们,容易伤感,更喜欢用一些伤感图作为QQ签名图。不过,你知道如何制作这种伤感图片么?其实没那么难,不用PS,因为时下有很多操作
- 作为网站的业务管理者,在欣赏自己为客户提供的丰富业务和趣味性体验时,你是否曾经想过网站会成为攻击者攻击第三方的媒介,从而导致公信度大为受损?