信息过量抓取有限:谈搜索引擎相关性技(2)
作者:思亿欧 来源:seo.com.cn 发布时间:2008-11-12 11:28:00
现阶段的相关度排序技术主要有以下几种:
一是基于传统信息检索技术的方式,它主要利用关键词本身在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如利用网页中关键词出现的频率和位置。一般而言,检索出的网页文档中含有的查询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出现在诸如标题字段等重要位置上,则比出现在正文的相关度要大。
二是超链分析技术,使用此技术的代表性搜索引擎有Google和Baidu等。和前者相比,它以网页被认可的重要程度作为检索结果的相关度排序依据。从设计思想上看,它更注重第三方对该网页的认可,如具有较大链入网页数的网页才是得到广泛认可的重要网页,而根据关键词位置和频率的传统方法只是一种网页自我认可的形式,缺乏客观性。
最后还有一些其他方式,如由用户自由定义排序规则的自定义方式。北京大学的天网FTP搜索引擎就采用这种排序方式,它可以让用户选择诸如时间、大小、稳定性和距离等具体排序指标来对结果网页进行相关度排序。再如收费排名模式,它作为搜索引擎的一种主要赢利手段,在具有网络门户特点的大型搜索引擎中广为使用,但于担心影响搜索结果的客观性,这种方式不是它们的主流排序方式,而仅仅作为一个补充显示在付费搜索栏目中。
相关度排序技术主要依赖于超链分析技术实现。
超链分析技术可以提供多种功能,其中的主要功能就是解决结果网页的相关度排序问题。它主要是利用网页间存在的各种超链指向,对网页之间的引用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。
一般认为,如果A网页有超链指向B网页,相当于A网页投了B网页一票,即A认可了B网页的重要性。深入理解超链分析算法,可以根据链接结构把整个Web网页文档集看成一个有向的拓扑图,其中每个网页都构成图中的一个结点,网页之间的链接就构成了结点间的有向边,按照这个思想,可以根据每个结点的出度和入度来评价网页的重要性。
对于超链分析技术,有代表性的算法主要是Page等设计的PageRank算法和Kleinberg创造的HITS算法。
其中,PageRank算法在实际使用中的效果要好于HITS算法,这主要是由于以下原因:首先,PageRank算法可以一次性、脱机且独立于查询的对网页进行预计算以得到网页重要度的估计值,然后在具体的用户查询中,结合其他查询指标值,一起对查询结果进行相关性排序,从而节省了系统查询时的运算开销;其次,PageRank算法是利用整个网页集合进行计算的,不像HITS算法易受到局部链接陷阱的影响而产生“主题漂移”现象,所以现在这种技术广泛地应用在许多搜索引擎系统中,Google搜索引擎的广获成功也表明了以超链分析为特征的网页相关度排序算法日益成熟。
PageRank技术基于一种假设,即对于Web中的一个网页A,如果存在指向网页A的链接,则可以将A看成是一个重要的网页。PageRank认为网页的链入链接数可以反映网页的重要程度,但是由于现实中的人们在设计网页的各种超链时往往并不严格,有很多网页的超链纯粹是为了诸如网站导航、商业广告等目的而制作,显然这类网页对于它所指向网页的重要程度贡献程度并不高。
但是,由于算法的复杂性,PageRank没有过多考虑网页超链内容对网页重要度的影响,只是使用了两个相对简单的方法:
其一,如果一个网页的链出网页数太多,则它对每个链出网页重要度的认可能力降低;
其二,如果一个网页由于本身链入网页数很低造成它的重要程度降低,则它对链出网页重要度的影响也相应降低。
所以,在实际计算中,网页A的重要性权值正比于链入网页A的重要性权值,并且和链入网页A的链出网页数量呈反比。由于无法知道网页A自身的重要性权值,所以决定每个网页的重要权值需要反复迭代地进行运算才能得到。也就是说,一个网页的重要性决定着同时也依赖于其他网页的重要性。(思亿欧网络科技www.seo.com.cn)
猜你喜欢
- 最近买了sshVM的一款每个月2$的VPS,首先想要尝试的当然是VPN啦。安装成功后,觉得自己的VPN就是不一样,比其他地方的都要快,看Yo
- 北京时间11月4日消息:据美国《纽约时报》引述消息人士报道,围绕Skype的法律和转让纠纷有望终结,Skype的创始人和eBay以及收购方接
- AIR(全名Adobe Integrated Runtime,前身Apollo)的来意 这几年企业应用系统慢慢己从窗口桌面转移到网页平台上,
- 自从上次由于没有成功备份导致博客的大部分文章无法还原之后,我就更加小心博客的备份了,并且还尝试了多种的备份方法,以下是其中三种直接备份&nb
- 我们链接专题系列的第三篇是关于创建导出链接,也就是怎样“链出去”。对于大多数网站管理员来说,导出链接是很自然的事情,不需要特别关注。然而,如
- 今天一个朋友用的dedecms织梦内容管理系统架设的网站出问题了,由于前期的安全工作没做到位,网站是可以随意注册会员及其发表文章的,所以该网
- 由于本人做网吧维护的,本来和做网站没什么关系,随着业务量的增加。客户的数量也多了起来。关系处的久了。有些客户就给我提了一些意见,当然是和他们
- 昨日,把托管到网络中心的那台服务器重装了,为了管理方便开通了远程桌面,可是在办公室怎么也不能访问,每次都是无法连接到远程主机。思考了许久,才
- 最近在看腾讯新闻的时候,无意中发现,当我选中新闻中的文字的时候,鼠标右上角会显示一个“转播至微博”的按钮,点击后就会将选中的文字转发到微博上
- 经常在一此站长论坛里看到一些站长朋友提问:“为什么我的网站收录这么少?为什么我的收录慢慢减少“等等问题。今天就对这个问题说说自己的看法 其实
- CNET科技资讯网 3月3日 北京报道(文/张丹):雅虎全球与微软的联姻获批,使得搜索市场谷歌一家独大的不利市场局面获得转机。然而雅虎这家拥
- GoDaddy主机用户在购买、建立、管理托管帐户过程中,创建了多个帐户来登陆与其托管网站有关的不同界面。每个帐户都由一个用户名及密码来保护。
- 关于Fckeditor,大家并不陌生,多个互联网软件中都在使用它,它是一款非常强大的编辑器,近年来被站长使用火热的Dedecms的默认编辑器
- 在网络科技时代,SOHO(Small OfficeHome Office)或远程办公(Tele-office)作为一种新的工作和生活方式,已
- 从三个方面来讲关键字如何在网站的内部来做优化!第一:网站的titletitle中关键字所占的权重是相当主要的,写好一个合理的title对优化
- 这个话题算是老生常谈了,看过的老鸟们自然不用说,但别忘记了还有不少刚接触电脑的朋友,他们对于Windows系统的清理思想还不是清楚,所以本文
- UCenter Home是Comsenz公司发布的一款SNS建站系统,目前最新版本是1.5。UCenter Home1.5中,对数据调用功能
- 网赚和经营小生意并没有什么不同,只要你用心经营和努力就获利的机会,但如果你不摆任何心思在网赚上,你要获利的机会就微乎其微。另外广开财源绝对是
- 百度老总李彦宏出了一道题:“评价一个搜索引擎好坏的标准到底是什么?”这位刚成为武大名誉教授的李老师,承诺将回答优秀者收作自己的研究生。我对这