网站运营
位置:首页>> 网站运营>> 中文分词的作用与概述

中文分词的作用与概述

作者:沈炜杰 来源:艾瑞网 发布时间:2007-12-29 12:49:00 

标签:分词,中文分词,搜索引擎,匹配

目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。但是SWJ认为其技术能力等方面还是相差国外先进水平有一定的距离 不过,这距离在慢慢的拉近中! 谈到搜索引擎的分词技术之所以能形成现在这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同。


什么是中文分词?


众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

查看《asp的中文分词技术


中文分词和搜索引擎关系与影响!


中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。


小谈:中文分词技术

中文分词技术属于 自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法


这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:


1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。


对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。


2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。


到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

0
投稿

猜你喜欢

  • 架设FTP站点似乎已经不是什么困难的事情了,我们不需要借助任何外来工具的帮忙,只需要使用Windows服务器系统自带的IIS功能,就能轻易地
  • 软件列表:checkpassword-0.90(pop3验证用户程序)cmd5checkpw-0.22.tar.gzucspi-tcp-0.
  • 写点这些日子的心得吧。。。既然是一个团队,团队每个成员的想法也是非常重要的。凌晨了,睡不着,想了很多有关工作和生活的事儿。我记得以前有朋友问
  • Linux中增加软路由的方法一:route add -net 172.16.6.0 netmask 255.255.255.0 gw 172
  • 很多人做网站,有人成功,但是更多人失败,这是为什么?我觉得做网站,从事网赚行业—贵在坚持!现在搭建网站很容易,网络上一大把CMS建站系统任你
  • Google AdSense英文关键词价格要远远高于中文关键词,初略观察,有实力的同学,做英文站也许是这个经济形式下的一个不错的选择。并不是
  • 由于中文点击网赚由于开站的成本比较低,开站比较容易,但是前期的投入比较大,如果没有更多的后续资金做保证、或者网站没有稳定的收入来源,网站的倒
  • 将证书导入网站目录为了让目标网站所对应的目录文件信息全部使用SSL加密传输功能,我们需要将前面申请好的网站证书导入到目标网站所对应的目录中;
  • Discuz!7.0取消了视频主题,但是您可以发布外部链接视频。下面将详细介绍下如何发布:一、后台设置1)论坛后台 => 界面 =&g
  • 明天就是教师节,在此,我再为大家讲解如何利用教师节进行网站推广。首先,我们来分析一下教师节的特点。教师节虽然从意义上来讲是教师的节日,但对于
  • 现在,很多人都拥有自己的电脑,并且通过固定的IP连接到互联网。于是,他们开始在自己的电脑上架设服务器。在自己的电脑上架设服务器,无论你使用L
  • 很奇怪,最近自建的FTP,Serv-U域总是一开机就自动离线,重新填写域IP,应用之后,就正常了。但是重启之后,又挂掉,造成FTP连接不上。
  • 你知道什么是“红客”、“威客”、“玉米虫
  • 本修正版通过封装代码,可以实现与PHPCMS的无缝衔接,已通过测试,有兴趣的朋友,还可以加以借鉴举一反三,做出自己的程序来(此是后话)。此前
  • 当你在计划构建个人服务器时,应考虑一些相关因素:拟在服务器上提供的服务,相关服务软件推荐的硬件配置, 包括理器速度,硬盘大小,内存数量,你的
  • 千万捐赠区台塑集团 1亿润泰集团 6500万富士康6000万元匿名公司 5000万中国移动4455 万香港赛马会3000万 李嘉诚基金300
  • 又是伪原创的话题,这个话题关心的人其实也比较多,网上伪原创的方法也有很多,比如换行啊,换页啊,多篇文章融合啊,但是这种伪原创的方法越来越不受
  • 怎样设置Godaddy的企业邮局呢?今天就教大家设置企业邮局。首先,要把域名的MX记录做一下解析:MX 0 – smtp.secureser
  • 碰到CC攻击请把下面的代码放做成conn.asp,原理大家可以自己研究<% DimfsoObject DimtsObject dimf
  • 1. 什么是PageRank 2. PageRank的决定因素 3. 如何查知PageRank 4. PageRank的重要性 5. Goo
手机版 网站运营 asp之家 www.aspxhome.com