中科院软件所张俊林:Baidu分词算法分析
作者:张俊林 来源:中科院 发布时间:2008-10-06 17:44:00
查询处理以及分词技术
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。
查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。
我们分两个部分来讲述:查询处理/中文分词。
一、查询处理
用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?
1、假设用户提交了不只一个查询串,比如“信息检索 理论 工具”。那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:《信息检索,理论,工具》三个子字符串;这个道理简单,我们接着往下看。
2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理论 工具 理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论 工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。那么是如何得出这个结论的呢?我们可以将“理论 工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容。OK。继续,我们提交查询“理论 工具 理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)。
3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将 中文切分开,这样上述的查询就切为《电影,BT,下载》,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个 整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理。
到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。
接着该干什么呢?该考虑分词的问题了。
猜你喜欢
- 芯片商的用户争夺战升级昨天,电脑芯片商AMD公司在京正式发布VISION技术,其中文名称为“视·觉
- 在上周日的WordCamp蒙特利尔会议中,WordPress创始人Matt Mullenweg回答了一系列问题,其中包括了WordPress
- 这是一个关于网络广告商和网络销售的汇总列表,可以用来为您的网站或博客赚点钱。广告商都是英文的,加入广告请确认其是否支持中国地区支持,不支持的
- Google官方原文:How do I pick up my Western&n
- 美工经常抱怨的话就不多讲了,我认为如果一个美工没有熬到设计总监或者产品经理的可能性,势必要考虑或经历着以下转型:1、美工→编辑(或web销售
- MDaemon是一款功能非常强大的邮件服务器软件,可运行于Windows9x/Me和Windows NT/XP/2000/2003操作系统,
- 对于个人站长当我来说一切都想着免费的,想通过花最少的钱来赚到最大的利润,所以我架设的wordpress博客是在一家美国的老牌免费服务器上,这
- 一、降低出现低价GG广告的机率GG广告显示的原则是,其一,高价广告优先,高价广告的位置常排在前面,这好理解,毕竟Google公司也想多赚钱呵
- ftp 文件传输服务,其余的不多讲了,直接进入主题。今天我给大家说的是使用vsftpd架设ftp服务器,希望对大家有所帮助。A 安装vsft
- 前言:绝大多数的站长是负担不起独立主机所带来的金钱、时间、维护上的消耗,于是就有了虚拟主机业务。随着虚拟主机近几年良莠不齐的发展,如何选择一
- 1, 老域名调转到新域名,这样可以保证以前的客户通过老域名还能够访问新域名,不损失这部分用户。2, 在首页显要位置告诉浏览者网站域名已经更改
- 本文介绍如何让 qmail 增加 smtpd-auth 功能.软件需求系统版本:RedHat6.2必需软件:1、qmail-1.03(www
- 在搜索引擎运算原理中,提到了蜘蛛或网络机器人,我们就会联想到链接,因为蜘蛛是怎么运动的呢?就是通过链接与链接之间爬行的过程来抓取网页内容。如
- 没有流量的网站是失败的,倒不是说网站制作的失败,而是指网站运营的失败,所以如何做大流量,是每个站长都孜孜以求的。网站的流量推广,经验很重要,
- 什么是SPF就是Sender Policy Framework。SPF可以防止别人伪造你来发邮件,是一个反伪造性邮件的解决方案。当你定义了你
- 今天,中国雅虎推出了采用@yahoo.cn域名的“终生邮箱”,并声称是“无限容量”的免费邮箱。新推出的“终生邮箱”整合了雅虎相册、音乐盒、音
- 简单记录一下,在线的工具越来越多多种文件格式互相转换1) Zamzar.com – 在线文件转换中的一个快速而便捷的方式。不需要注册,转换完
- 有Godaddy用户问该如何更改域名的解析服务器地址,其实绝大多数的域名注册商,会提供域名的控制面板,通过控制面板,您能修改域名的域名解析服
- 侧边栏的标签云(Tag Cloud)一直是 WordPress 2.3+ 以后的内置功能,一般直接调用函数 wp_tag_cloud 或者在
- 北京时间10月12日消息,据国外媒体报道,微软公司今日表示,由其负责提供软件运维的T-Mobile运营的Sidekick手机服务,遭遇了技术