Google工程师解释Googlebot抓取网页的原理
作者:创业基地 来源:中国站长站 发布时间:2009-02-10 18:04:00
Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此,信不信当然由你。
其实上次Matt所透露的仅仅是其中一方面的内容。今天,Matt再次写了一篇非常详细的文章,解释了Google的各种bot是怎样抓取网页的,以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等,内容非常的精彩,所以和大家分享一下。
首先要介绍的是Google的“crawl caching proxy”(爬行缓存代理)。Matt举了一个ISP与用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,然后ISP就会把用户访问过的网页缓存起来备用。比如说,当用户A访问了www.wo2080.com,那么中国电信(或网通等)就会把“80后创业基地”发送给用户A,然后将“80后创业基地”缓存起来,当用户B在下一秒钟里再访问www.wo2080.com,那么中国电信就会把缓存里的“幻灭的麦克风”发送给用户B,这样就能节省了带宽。
正如本站之前所报道的那样,Google最新的软件层面的升级(转移至BigDaddy)已经接近完成,因此升级后的Google各方面的能力都将得到加强。这些加强包括了更智能化的googlebot爬行、改良的规范性以及更好的收录网页能力。而在Googlebot爬行抓取网页方面,Google也采取了节省带宽的方法。Googlebot也随着BigDaddy的升级而得到了升级。新的Googlebot已经正式支持了gzip编码,所以如果你的网站开启了gzip编码功能,那么就能节省Googlebot爬行你的网页时所占的带宽。
除了改良的Googlebot外,升级后的Google将会采用上面所说到的crawl caching proxy来抓取网页,以进一步节省带宽。
创业基地SEO频道得知:Google蜘蛛以Googlebot爬行为主,Server A指的是AdSense,而Server N则可以是Google的blogsearch或其它。我们可以看出,同一个网站,Googlebot与AdSense的Mediabot、blogsearch的bot都爬行过了,其中有很多重复的爬行。而升级后的Google所采用的crawl caching proxy又是怎样的情形:
很明显,因为crawl caching proxy将各种bot的抓取都缓存起来,因此当Googlebot已经抓取过某些网页,而Mediabot或其它bot再次抓取重复的网页时,crawl caching proxy就会发挥作用,直接将缓存里的网页返回给Mediabot等,这样就使得实际爬行次数减少,节省了带宽。
从Matt的分析可以看出,Google这样做的确是能节省自己及网站的带宽,好处是能让Google的各种bot在一定的时间里爬行更多的网页,以方便收录。我的理解是,虽然好处是相当明显,但坏处也是有的。比如,当一个网站它以AdSense的广告费为生,那么它就需要AdSense的Mediabot不停地光临,以分析它的更新网页的内容,投放更相关的广告。但当这个网站是一个PR值不错的网站,那么Googlebot很可能会天天都来爬行它,这样一来,crawl caching proxy就会把Googlebot的爬行缓存起来,等Mediabot再来爬行的时候,它就直接把缓存的内容返回给Mediabot。这样一来就减少了Mediabot爬行该网站的次数。由于两种bot并不是采用完全相同的工作机制,因此这个网站有可能因此Mediabot的爬行次数的减少而使得显示的AdSense广告的相关性减弱。
本文来源:创业基地SEO频道 www.wo2080.com 转载请以链接形式注明出处。
猜你喜欢
- 怎么删除docker里建立的容器1、首先使用docker -s -a命令列出所有容器# docker ps -aCONTAINER ID &
- a)准备工作和建立内容在你注册域名之前,你就应该记录下你的想法,应该准备足够100个网页的内容。请注意是至少。这100个网页应该是真正的内容
- Linux免密码远程登录的实例如何通过一台Linux ssh远程其他linux服务器时,不要输入密码,可以自动登入。提高远程效率,不用记忆各
- 本人在Windows XP SP2+IIS 5.1上测试我的ASP程序。本人有及时打微软补丁的好习惯。但打上如题所述的补丁后,导致IIS无法
- 在十年前,有人看到了Internet网的未来前景,几经波折历经万苦,创立了而今有名的阿里巴巴、百度、雅虎..等知名网站,详看今天的互联网已&
- 像我这样的Ubuntu脑残粉,电脑上只安装了Ubuntu,但是有时又必须得使用Windows,于是就装了一个Windows虚拟机,使用的是V
- 什么是baiduspider?baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用
- 雨林木风推出自主研发操作系统12月25日早间消息,在雨林木风工作室解散一周年之时,雨林木风团队官方宣布于昨日正式推出“雨林木风开源操作系统(
- 由于广大站长搜索引擎优化(SEO)在国内不断的升温,加上搜索引擎算法的不算完善,曾经单纯的“mate标签+文本优化等”优化手法已经被现在考虑
- 前言最近工作中遇到一个需求,需要将程序的输出写到终端,同时写入文件,通过查找相关的资料,发现可以用 tee 命令实现,首先来解释一下 tee
- 10月15日消息,阿里学院今日宣布,为帮助中小企业解决人才缺口问题,近期将在全国范围内打造电子商务人才产业链,完成人才培养到人才输送。据阿里
- 在Discuz!论坛运行的时候,经常有用户会遇到这样的问题,会员的上次访问时间和最后发表时间会超出当前时间,出现这种情况的原因是服务器的时间
- 北京时间4月30日消息,据国外媒体报道,微软近日证实,另一家知名软件开发商Adobe Photoshop软件部门首席架构师马克·哈姆伯格(M
- 这两天最热闹的新闻,腾讯和搜狗的版权官司算一个。再往前推,搜狐、激动网、优朋普乐成立反盗版联盟,剑指优酷、土豆、迅雷等国内目前最流行的视频网
- 在Discuz! 7.0中发布多媒体,比如引用其他网站的视频、mp3 等。需要设置三个地方。首先,对编辑器设置。打开后台,界面=>编辑
- 现在,搜索营销和在线媒体之间的界线日益模糊了。在谷歌Adsense网站中,这一现象更为明显。Adsense是一个巨大的广告网络,在这个网络上
- IIS(Internet Information Server)作为当今流行的之一,提供了强大的Internet和Intranet服务功能,
- 1.Linux中如何表示硬盘,分区Linux内核读取光驱,硬盘等资源时均通过“设备文件”的形式进行,因此在linux系统中,将硬盘和分区表示
- 熟悉WordPress的人都知道WordPress是由MySQL数据库驱动的。MySQL是一个免费的关系数据库管理系统,大多数的主机托管服务
- 部分访客在博客评论后不习惯留下网站URL链接,使用z-blog博客的博主点击访客用户名就会跳转到Z-Blog官方网站首页,如果有其他的访客点