了解谷歌搜索引擎工作原理 做好网站优化
作者:橙子·程序的力量 来源:网易博客 发布时间:2009-01-13 09:04:00
Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么新的更新。如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。
刷新探测器取得的结果是汇总在一个单独的数据库里。每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google的主要索引是合在一起提供搜索结果的。
Google的操作模式
收集---->采编/索引---->反馈的工作程序。事实上,搜索引擎包括以下几个元素。
·抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。
·网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。
·索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除掉。
·索引状态:将压缩后的网页编目在不同的索引之下。
·问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来咨询各个索引求得相关答案。
·排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。
SEO是逆向搜索推理
网站首先要知道搜索引擎是怎样判定网站质量的,这个揣度搜索引擎的过程是逆向推理。这个逆向推理是从搜索引擎的搜索排名开始,去探索究竟搜索引擎会将一些网站排列在搜索结果的前列,为什么一些网站连显示的机会都没有。最后推理出的结论是知道搜索引擎判定和排名网站存在着哪些普遍规律,进而知道网站的设计和推广中哪些是应该做的,哪些是不应该做的。
Google的PageRank(PR)
PageRank并非是“页面等级”,而是“佩奇等级”。因为这里的Page指的是Google的创始人之一拉里·佩奇(Larry Page),从名字可以看出有的人天生就是为互联网而存在。
公式
PR(A) = (1-d) + d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn))
PR(A):网页A的佩奇等级(PR)
PR(Ti):链接网页A的网页Ti的佩奇等级(PR)。i可以是0-n,n是链接的总数。这个链接可以是来自任何网站的导入链接
C(Ti):网页Ti往其他网站链接的数量(导出链接)
d:阻尼系数,介于0-1之间,Google设为0.85。
可以看出,网页A的PR是由链接它的其他网页Ti所决定的。如果在网页Ti中有一个链接指向网页A,那么A就得到了一个“投票”。但是如果网页Ti中的导出链接如果越多,点击指向A的可能性就越小。所以网页Ti的PR只需要用C(Ti)来加权平均。
当然,决定网站排名的不仅仅是PR值,还有其他的因素。但是PR在google判断网站质量中起着很重要的作用。
猜你喜欢
- Linux启动后出现boot:提示时,使用一个特殊的命令,如linuxsingle或linux 1,就能进入单用户模式(Single-Use
- 1、自己点击站上广告,此行为被誉为“无效点击”。Google政策原文:“我们不容许您因任何原因点击自己网站上的广告,因为这样可能会让广告客户
- 尤其是对于那些公司规模更为庞大的系统管理员们来说,在Exchange2007的管理控制台上加强巩固“邮箱查看”功能,无疑是一个重大的胜利。创
- 10月13日是世博倒计时200天,“星耀世博——首批世博城市之星颁奖典礼&
- 托管服务器在进入数据中心机房内之前,系统肯定都得事先做好,但仅仅装好系统,打开远程控制还是远远不够的。第一节我们谈到的主要是“硬安全”,现在
- 应部分GoDaddy用户要求,整理了解决GoDaddyLinux空间Java和Jsp常见的一些问题及解答,希望可以给GoDaddy用户带来更
- Linux为美国以外的其它国家提供了自主发展操作系统的一条捷径。主要是因为Linux操作系统本身的源代码是公开的,操作系统开发方可以对源代码
- 加固外网上的IIS服务器安全关于IIS服务器的安全主要包括六步:1、使用安全配置向导(Security Configuration Wiza
- RHEL4中的vsftpd在编译时已经支持tcp_wrappers,因此可以利用tcp_wrappers实现主机访问控制。实验之前,首先说下
- 酝酿测试几个月的Google AdSense今日开放西联汇款 加快汇款速度,最高金额1万美金,不能给公司汇款。详细内容: 选择付款形式当月
- 月光博客最擅长这个,我们来看看月光最近的这类帖子:十个常用的S60手机软件十大经典JAVA手机游戏8个有用的WP的SQL语句十个避免RSS订
- 北京时间10月28日消息,据国外媒体报道,Facebook昨日召开了年度Facebook 开发者大会,表示Facebook用户十分热衷于游戏
- 笔者阿霸的站长资源群有很多初级站长朋友,在群里日常的交流中,发现这些初级站长对SEO是有所了解。但是站长们在网站制作的细节上,往往掌握不到一
- V5shop引领独立网商成功的五个层次美国心理学家亚伯拉罕·马斯洛在《人类激励理论》论文中提出了著名的&ldq
- 由于各种原因,我们有时候需要在一个IP地址上建立多个web站点,在IIS5中,我们可能通过简单的设置达到这个目标.在IIS中,每个 Web
- 网站终于做好了,接下来要做的就要把网站发布出去。使用尽可能多的方法将网站推广出去,最大限度的让更多的人知道你网站,来获取更多流量才是关键。但
- Google是我最喜欢的搜索引擎,我被Google的精神而折服,被Google的文化而感染,我可以说是Google的超级粉丝之一了,今天看了
- 首先下载几个软件:JDK、Apache和Tomcat。JDK(Java Development Kit )是一切java应用程序的基础,可以
- 我们用到的比较多的可能是Limit的使用,Limit大致有以下动作,基本能覆盖全部的权限了。CMD:Change Working Direc
- 如果你是一个项目管理者,可能听说过redmine。它是一个项目管理系统的后起之秀,具备了广泛的项目管理平台特点同时,还提供了诸多的独有的特性