网站运营
位置:首页>> 网站运营>> 中文分词的作用与概述(2)

中文分词的作用与概述(2)

作者:沈炜杰 来源:艾瑞网 发布时间:2007-12-29 12:49:00 

标签:分词,中文分词,搜索引擎,匹配

分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。


1、歧义识别


歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。


交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?


新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。


中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路要走。。。

好了SWJ就说到这里 大家只要能充分的了解分词技术 那么拿SEO来说 再各个方面的表现你都是不错的。但,这是没有决定性与唯一性的 不希望有人钻这个问题的牛角尖! 认真做站 多实践 多积累 多探讨 多学习!

相关推荐:ASP实现网站智能分词搜索

0
投稿

猜你喜欢

  • 我最早接触SEO是在2002年,从事SEO的人士都应该知道03年中国的SEO市场非常混乱繁杂。把一个网站的关键词两三天之内做到GOOGLE的
  • 核心提示:SEO是一项相当复杂、精细的工作,成功的SEO涉及主动营销型网站建设从网站品牌的确立到ROI (Return on Investm
  • 什么是友情链接,友情链接的作用和好处: 友情链接是一种网站之间的简单合作形式,即分别在自己的网站上以文字、图片或其他形式的载体链接到对方的网
  • 你拥有一个咨讯丰富的网站,有一批固定的访问者,而且希望利用这两个条件来为你赚得一些利润。这就是你考虑网上广告的时候了。如果你拥有资源(即昂贵
  • 动易net的版本发布到现在也差不多有一年的时间了,但是给我的感觉还是很不成熟,不明白这么大的一个动易公司,哪么多的员工怎么会出现这么慢的进度
  •  前短时间写了一篇关于百度优化的一点心得!呵呵,后来发现被鱼发到草根板块了,嘻嘻,高兴吖!    很
  •     有时被称为Web 2.0甚或Web 3.0的下一代互联网,是一个令人难以捉摸的理念,这可能是因为该理念
  • 核心提示: 说说我访问错误的处理,更明确地说是301错误和404错误。由于网站来来回回地换了几次空间,而且访问方式也发生的变化,原来是使用链
  • 今天我赶着去参加一个聚会,最糟糕的是还有二十分钟会议便要开始了。我好不容易截到了一辆出租车,匆匆忙忙上车后,我对司机说:“麻烦你,我很赶时间
  • 品牌博客成功的三进策略:一、人脉进门所有成功博客的身边都有一个很强大的由其他博客撰写者组成的支持团。网络在很大程度上可以从很多方面帮助你,这
  • 今天谈一个关于搜索引擎优化细节得有点无聊的问题。以前在论坛里有朋友问,什么样的文章长度有利于SEO?首先先说两句基本上永远正确的废话原则:1
  • 一直不太想说Google PR劫持这个话题,因为怕造成一些人刻意利用来骗其他的站长。不过前几天在点石有几个帖子都涉及到了这个问题。而且我再想
  • DHCP 是 Dynamic Host Configuration Protocol 之缩写,它的前身是 BOOTP。BOOTP 原本是用于
  • 对于已经建设好的网站,我们该如何做呢?下面我就结合自己建设“QQ空间5.0模板”亲身经历谈一点自己粗浅的做法,也许对你有所帮助!第一、网站的
  • 酷我音乐盒作为国内领先的网络音乐播放器,除了提供给用户完美的音乐视听享受外,在歌词方面也是精益求精,力求带给用户独一无二的全新歌词体验。经过
  • 在接下来的几个月内,我们将会在 AdWords 系统推出一些新的功能,为了实现这些功能,我们将会在发布商网络投放 Doubleclick 广
  • 新浪科技讯 北京时间9月13日午间消息,在活跃用户突破1亿大关后,Twitter宣布将在未来几周内新增5种语言,分别是印地语、菲律宾语、马来
  • 中文分词又叫中文切词,中文划词等,是seo必须掌握的一个基础知识。现有的中文分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方
  • 本人亲身经验,站长建站,百度最快11天3号就收录了,google慢点11月9号才收录,不过10天之内能收录还是归功于以下方法!1.在忙活了一
  • 做本地站比起其他的技术站或专题站都要难!第一:线下推广做地方站首先应该认识到的一点是:一定要花大力气做线下推广这与做一般意义上的普通站是不同
手机版 网站运营 asp之家 www.aspxhome.com