网站运营
位置:首页>> 网站运营>> 搜索引擎分类与工作原理(2)

搜索引擎分类与工作原理(2)

 来源:csdn 发布时间:2007-10-15 19:11:00 

标签:搜索引擎,工作原理,搜索

搜索引擎是怎么工作的

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有你而没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。 

相关阅读搜索引擎的工作原理

0
投稿

猜你喜欢

  • 第一绝招:产品定位在网上开个小店,和在网下开个实物店,是完全不一样的,在网下,只要你的店的位置不要太差,小生意就可以做的还不错,就算是卖很大
  • RPM是一个功能十分强大的软件包管理系统,它使得Linux下的安装,升级和删除软件包的工作非常简单易行,并且还有查询,验证软件包的功能。与图
  • 8月份曾应朋友的邀请,参与了谷歌公司的一个内部活动,跟谷歌的Adsense、搜索质量组、Adwords部门部分员工进行一个对话。对话前谷歌的
  • 内容摘要:本文列出了SQL 注入一些常用语句,站长朋友请注意了,看看您的网站程序是否存在这样的漏洞,一般过滤post或get过滤的
  • LuManager(LUM)是基于FreeBSD、Zijidelu、Debian、Centos、Ubuntu等Linux/Unix系统的网站
  • 我们非常高兴地通知大家我们即将发布一项新功能,这个功能可以让您在AdSense 账户中轻松管理您的广告单元。  &nbs
  • 当互联网吵吵嚷嚷的进入2.0时代,当互联网的技术不再是那么高不可攀,当复制变成家常便饭,互联网热闹起来了myspace火了,中国冒出更多的m
  • 目前比较流行的ASP木马主要通过三种技术来进行对服务器的相关操作。一、使用FileSystemObject组件FileSystemObjec
  • UCenter Home 2.0后续版本持续改进创新已经成为广大站长密切关注的话题,为了让广大站长及时了解UCenter Home产品研发动
  • 我们经常发现一些发布商反映他们的广告代码被别人放到了他不知道的网站上。有些发布商会莫名其妙的收到我们的警告信,然后发现那个网站根本不是自己的
  • 从事中文点击网赚的站长可以说是一个特殊的站长群体,这个群体不被主流网站看好,但其内部却是热闹非凡。很多的人从事网上的兼职活动都是从中文点击网
  • 有GoDaddy主机用户问该如何使用密码保护文件夹呢?其实密码保护特征让你能够限制Web登陆你的托管账户目录的行为。启用后,用户首次访问受保
  • 10月16日消息,据国外媒体报道,谷歌Android智能手机操作系统正在以很快的速度开发。与其它的操作系统相比,虽然Android推出的时间
  • 11月2日是站长第一次利用西联取款的好日子,但是,还是有部份Google adsense用户在农行取款时,发生姓名出错的问题,如:没有名,只
  • 多人共同协作的群体博客,需要一个明确的协作规范,虽然目前月光博客还不是多人更新的博客,但也有一些写作规范,这里进行了一些总结,以便未来的某些
  • 想必大家这几天都体验了一把Google最新释放的SearchWiki功能了吧,我们确实要佩服Google这家以强悍技术驱动的企业,想方设法去
  • 1、经常换网站程序。有很多新手在接触网站的时候,因为对SEO没有太深的了解,往往凭借个人喜好,经常变更网站程序。殊不知网站建成之初,蜘蛛就形
  • 很久没写过文章了,想想也有差不多十年了,所以现在没什么文采,兄弟们看了别笑啊!在ADMIN5潜水也有几月了,看过不少站长的心得,经验.笑过,
  • 我曾经写过一篇文章叫“不要在国内注册域名”,讨论不要使用国内的域名注册商进行域名注册,甚至不要用使用国内网站查询域名,之后我发现有很多人留言
  • 小站的独立IP超过50/天的时候,我就将Google AdSense放在了网站比较醒目的地方,按照我的构想,在IP达到日均200之前,不主动
手机版 网站运营 asp之家 www.aspxhome.com