信息过量抓取有限:谈搜索引擎相关性技(2)
作者:思亿欧 来源:seo.com.cn 发布时间:2008-11-12 11:28:00
现阶段的相关度排序技术主要有以下几种:
一是基于传统信息检索技术的方式,它主要利用关键词本身在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如利用网页中关键词出现的频率和位置。一般而言,检索出的网页文档中含有的查询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出现在诸如标题字段等重要位置上,则比出现在正文的相关度要大。
二是超链分析技术,使用此技术的代表性搜索引擎有Google和Baidu等。和前者相比,它以网页被认可的重要程度作为检索结果的相关度排序依据。从设计思想上看,它更注重第三方对该网页的认可,如具有较大链入网页数的网页才是得到广泛认可的重要网页,而根据关键词位置和频率的传统方法只是一种网页自我认可的形式,缺乏客观性。
最后还有一些其他方式,如由用户自由定义排序规则的自定义方式。北京大学的天网FTP搜索引擎就采用这种排序方式,它可以让用户选择诸如时间、大小、稳定性和距离等具体排序指标来对结果网页进行相关度排序。再如收费排名模式,它作为搜索引擎的一种主要赢利手段,在具有网络门户特点的大型搜索引擎中广为使用,但于担心影响搜索结果的客观性,这种方式不是它们的主流排序方式,而仅仅作为一个补充显示在付费搜索栏目中。
相关度排序技术主要依赖于超链分析技术实现。
超链分析技术可以提供多种功能,其中的主要功能就是解决结果网页的相关度排序问题。它主要是利用网页间存在的各种超链指向,对网页之间的引用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。
一般认为,如果A网页有超链指向B网页,相当于A网页投了B网页一票,即A认可了B网页的重要性。深入理解超链分析算法,可以根据链接结构把整个Web网页文档集看成一个有向的拓扑图,其中每个网页都构成图中的一个结点,网页之间的链接就构成了结点间的有向边,按照这个思想,可以根据每个结点的出度和入度来评价网页的重要性。
对于超链分析技术,有代表性的算法主要是Page等设计的PageRank算法和Kleinberg创造的HITS算法。
其中,PageRank算法在实际使用中的效果要好于HITS算法,这主要是由于以下原因:首先,PageRank算法可以一次性、脱机且独立于查询的对网页进行预计算以得到网页重要度的估计值,然后在具体的用户查询中,结合其他查询指标值,一起对查询结果进行相关性排序,从而节省了系统查询时的运算开销;其次,PageRank算法是利用整个网页集合进行计算的,不像HITS算法易受到局部链接陷阱的影响而产生“主题漂移”现象,所以现在这种技术广泛地应用在许多搜索引擎系统中,Google搜索引擎的广获成功也表明了以超链分析为特征的网页相关度排序算法日益成熟。
PageRank技术基于一种假设,即对于Web中的一个网页A,如果存在指向网页A的链接,则可以将A看成是一个重要的网页。PageRank认为网页的链入链接数可以反映网页的重要程度,但是由于现实中的人们在设计网页的各种超链时往往并不严格,有很多网页的超链纯粹是为了诸如网站导航、商业广告等目的而制作,显然这类网页对于它所指向网页的重要程度贡献程度并不高。
但是,由于算法的复杂性,PageRank没有过多考虑网页超链内容对网页重要度的影响,只是使用了两个相对简单的方法:
其一,如果一个网页的链出网页数太多,则它对每个链出网页重要度的认可能力降低;
其二,如果一个网页由于本身链入网页数很低造成它的重要程度降低,则它对链出网页重要度的影响也相应降低。
所以,在实际计算中,网页A的重要性权值正比于链入网页A的重要性权值,并且和链入网页A的链出网页数量呈反比。由于无法知道网页A自身的重要性权值,所以决定每个网页的重要权值需要反复迭代地进行运算才能得到。也就是说,一个网页的重要性决定着同时也依赖于其他网页的重要性。(思亿欧网络科技www.seo.com.cn)


猜你喜欢
- 去官网下载最新版本的ant解压下载下来的.tar.gz文件: tar zxvf ....tar.gz将解压出来的文件移动到/opt/下:su
- 今天在浏览一个博客时,突然看到一句话“成功就是不断重复地做简单的事”,不禁让我联想起咱们做站何尝不是这样:记得刚开始做站的时候,总是不停地到
- 针对任何一个有效的域名,都应该有一个该域名的权威域名服务器(DNS),在域名服务器中有一条或多条针对于该域名的资源记录。一条资源记录共有5项
- 在godaddy购买了域名之后,godaddy会为这个域名配备一个免费的10G空间送给你!一般情况下,我们都不会去利用这个免费的10G空间,
- watch命令watch是一个非常实用的命令,基本所有的Linux发行版都带有这个小工具,如同名字一样,watch可以帮你监测一个命令的运行
- 无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所
- 本文记录了VMware Workstation14 Pro安装UBuntu17.04的具体方法,供大家参考,具体内容如下UBuntu之前用c
- 新浪科技讯 北京时间5月12日早间消息,据国外媒体报道,本周,微软Windows Phone 7操作系统“准正式版”(RC1 Escrow)
- 本文我们将讨论使用 mod_status 和 mod_info to 来告诉你目前服务器的工作情况我可以得到什么样的信息?使用 mod_st
- Linux 6下安装编译安装Nginx的步骤前言:Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务
- 作者 | 阿文责编 | 屠敏出品 | CSDN(ID:CSDNnews)让人吐槽的Win 10先讲下背景,4月初换工作,把15款的Macbo
- 前言当我们需要对应用程序进行系能分析时,我们通常可以使用perf或者火焰图。 但是这些工具通常只能定性问题,发现那些函数占用cpu较多,需要
- Godaddy主机Linux系统主机帐户的绝对路径是:/home/content/1/2/3/username/html/在路径里, &qu
- 您在生成广告代码的过程中,会有一个步骤是选择广告单元的格式,这一步骤非常关键。不同的广告格式效果差异非常大,选择好的广告格式可以显著提高您的
- 随着我国经济的发展,汽车类大型消费品也开始走入寻常千家万户,与此同时,各种围绕车型建立的车迷社区也在各地纷纷建立。北京飞度车友会(www.b
- IIS6.0应用程序池回收和工作进程 公司的一个网站程序长时间运行后,速度变慢,重新启动网站后速度明显变快,估计是网站程序占用的内存和CPU
- 首先,当然是去下载Linux的JDK咯。先看你Linux的系统多少位:getconf LONG_BIT然后去下载对应的JDK位数 版本.—自
- 网站中发布的文章除了需要按时间、栏目分类、类别调用外,往往需要根据编辑的推荐进行不同的调用,那么CMS自然少不了推荐位功能。一般推荐位的设计
- Cgroups是什么?cgroups(Control Groups) 是 linux 内核提供的一种机制,这种机制可以根据需求把一系列系统任
- 众所周知,版本系统在开发环境中是必不可少的,但是我们可以把代码免费的托管到GitHub上,如果我们不原意公开项目的源代码,公司又不想付费使用