搜索引擎分类与工作原理(2)
来源:csdn 发布时间:2007-10-15 19:11:00
搜索引擎是怎么工作的
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有你而没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
相关阅读:搜索引擎的工作原理


猜你喜欢
- 1. 下载地址:https://www.vmware.com/go/getfusion2. 安装和安装其他Mac软件一样,双击app文件即可
- 一、硬盘分区与操作系统的安装硬盘分区 总的来讲在硬盘分区上面没什么值得深入剖析的地方,无非就是一个在分区前做好规划知道要去放些什么东西, 如
- 人们上网都是为了查找并欣赏自己所需要的东西,如果你的网站没有什么内容,人们看一眼就走了,没有回头客,那么你的网站就是每天就是有一万个流量,也
- 6.3版本改进了验证码功能,不但更美观了而且多了很多实用选项,比如可以选择数字、英文、中文作为验证码,还可以选择验证码位数,给您论坛的多样化
- 适当的搜索引擎优化(seo)能帮助我们的网站在搜索引擎排名中取得好的名次,但是seo要注意一下十点,可能平常您并不会在意的问题。1.确定了错
- 我们所做的搜索引擎优化是建立在用户搜索体验为中心的基础上,通过为用户提供阅读性强,有应用价值的内容,以及建立合理的网站目录结构,使网站本身设
- 在川外成都学院就读的肖曦怎么也没想到,帮朋友在淘宝上买游戏充值卡的他竟然遭遇“钓鱼”网站,瞬间被骗走
- 前言本章将会讲解使用vi文本编辑器一.vi文本编辑器配置文件是Linux操作系统的显著特征之一,其作用有点类似于Windows操
- mysql-virtual.cfuser=mysql-postfix-userpassword=mysql-postfix-pa
- 1、首先选中需要克隆的虚拟机,右键点击管理-->克隆,注意关闭虚拟机2、修改MAC地址,一般克隆完成后,虚拟机的网卡MAC地址会自动改
- 1.新建用户wwweee000[root@localhost ~]# useradd wwweee000[root@localhost ~]
- Adsense推介不带中国玩了,这从是点石得到的最新消息,不知道真的还是假的,如果是真的很大站长朋友的收录又要少了,做站真是不容易啊。后面只
- 由于百度自然排名有时候喜怒无常,经常会出现巨大的跳跃性和不稳定性。一、先说跳跃性:关注的一个新站,在做了一些搜索引擎优化以后,大概30天左右
- 情人节来喽,动手做一张Silverlight贺卡送给她(他)吧。只须简单的几步,就可以在线完成贺卡定制。支持livespace/Flicke
- 最近才上的服务器,出现了无法删除文件夹的情况,文件可以删除,文件夹删除的时候提示The directory is not empty,解决办
- 本次教程的前提条件是您得安装好VM软件和Xshell。对应软件的下载请自行百度!如果exe都不会安装,请关闭本页面!第一步、下载镜像阿里云开
- Foxmail Server(FMS)是一款功能强大的邮件服务器软件,他提供了多种邮件服务,包括SMTP、POP3、LDAP等,并内建邮件扩
- 由于Apache具有相当高的可移植性,它支持超过30种操作系统,包括Unix、Windows 及Darwin等系统,所以目前在网络上已注册的
- linux注释crontab文件及crontab执行sh的坑原来,在Linux下写了很多crontab,来定时执行某些任务,现在有以下需求:
- Alexa 排名对于每个建站的朋友来说都不陌生了,它是目前常用来评价某一网站访问量的一个重要指标。虽然人们对他的算法颇有责疑(它只对安装了&