网站运营
位置:首页>> 网站运营>> Google工程师解释Googlebot抓取网页的原理

Google工程师解释Googlebot抓取网页的原理

作者:创业基地 来源:中国站长站 发布时间:2009-02-10 18:04:00 

标签:Google优化,抓取原理

Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此,信不信当然由你。

其实上次Matt所透露的仅仅是其中一方面的内容。今天,Matt再次写了一篇非常详细的文章,解释了Google的各种bot是怎样抓取网页的,以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等,内容非常的精彩,所以和大家分享一下。

首先要介绍的是Google的“crawl caching proxy”(爬行缓存代理)。Matt举了一个ISP与用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,然后ISP就会把用户访问过的网页缓存起来备用。比如说,当用户A访问了www.wo2080.com,那么中国电信(或网通等)就会把“80后创业基地”发送给用户A,然后将“80后创业基地”缓存起来,当用户B在下一秒钟里再访问www.wo2080.com,那么中国电信就会把缓存里的“幻灭的麦克风”发送给用户B,这样就能节省了带宽。

正如本站之前所报道的那样,Google最新的软件层面的升级(转移至BigDaddy)已经接近完成,因此升级后的Google各方面的能力都将得到加强。这些加强包括了更智能化的googlebot爬行、改良的规范性以及更好的收录网页能力。而在Googlebot爬行抓取网页方面,Google也采取了节省带宽的方法。Googlebot也随着BigDaddy的升级而得到了升级。新的Googlebot已经正式支持了gzip编码,所以如果你的网站开启了gzip编码功能,那么就能节省Googlebot爬行你的网页时所占的带宽。

除了改良的Googlebot外,升级后的Google将会采用上面所说到的crawl caching proxy来抓取网页,以进一步节省带宽。

创业基地SEO频道得知:Google蜘蛛以Googlebot爬行为主,Server A指的是AdSense,而Server N则可以是Google的blogsearch或其它。我们可以看出,同一个网站,Googlebot与AdSense的Mediabot、blogsearch的bot都爬行过了,其中有很多重复的爬行。而升级后的Google所采用的crawl caching proxy又是怎样的情形:

很明显,因为crawl caching proxy将各种bot的抓取都缓存起来,因此当Googlebot已经抓取过某些网页,而Mediabot或其它bot再次抓取重复的网页时,crawl caching proxy就会发挥作用,直接将缓存里的网页返回给Mediabot等,这样就使得实际爬行次数减少,节省了带宽。

从Matt的分析可以看出,Google这样做的确是能节省自己及网站的带宽,好处是能让Google的各种bot在一定的时间里爬行更多的网页,以方便收录。我的理解是,虽然好处是相当明显,但坏处也是有的。比如,当一个网站它以AdSense的广告费为生,那么它就需要AdSense的Mediabot不停地光临,以分析它的更新网页的内容,投放更相关的广告。但当这个网站是一个PR值不错的网站,那么Googlebot很可能会天天都来爬行它,这样一来,crawl caching proxy就会把Googlebot的爬行缓存起来,等Mediabot再来爬行的时候,它就直接把缓存的内容返回给Mediabot。这样一来就减少了Mediabot爬行该网站的次数。由于两种bot并不是采用完全相同的工作机制,因此这个网站有可能因此Mediabot的爬行次数的减少而使得显示的AdSense广告的相关性减弱。

本文来源:创业基地SEO频道 www.wo2080.com 转载请以链接形式注明出处。

0
投稿

猜你喜欢

  • 启用并配置文件服务Windows Server 2003的管理工具中有一项功能叫做“管理您的服务器”
  • 百度k站也是有一定规律可寻的 ,我总结了几点,也许大家用的着。总的原则是在百度没关键词没带去多少ip的站基本不k 。要k的起码你的站从bai
  • 一、序言现在很多网站对用户的访问权限进行了严格的限制,用户在访问某些资源时需要给出“用户名/口令"来确认自己的身份。目前,使用最多
  • typecho 是一个轻量级的PHP博客程序,猫一直在用,试了一下,挺有亲和力,后台界面是我喜欢的那种,代码也很简洁易读,速度比WP相比,一
  • 说起电子邮箱,相信不少朋友都会有不下两三个吧?接下来我们将向你介绍如何用计算机来架设一个邮件服务器。一、下载安装WinMail1)首先有请我
  • 前天晚上登陆GG后台看到截止4月份的收入已经签发,总额是$105.69。赚GG的广告费也不容易,我也不知道这是多少个日夜所累积起来的第一笔来
  • 无处不在的WEB2.0 正式成为主流,人们通过对XML和RSS等标准格式、面向服务的网络应用程序、用户控制的数据的应用,认识到了英特网真正的
  • 有Godaddy主机用户不知道该怎样从Password Vault 里删除密码,其实很简单的,操作如下:首先. 登陆你的Account Ma
  • 1月6日消息,据国外媒体报道,微软将在今年发布新版本的Office套装软件,零售价格为99美元-499美元,业内人士猜测发布日期可能为6月。
  • 做一个有个性的个人网站,首先要明确自己的内容规划。A/符合自己的个性 网站有很多种不同的类型,你的网站属于什么类型?一个资源下载站?一个网络
  • 从真正接触网络到做个人站长,也就几年的事情,得出一个结论,做站长很辛苦。也许一个站长少了很多与别人谈笑的时间,却多了许多面对电脑独自思考的理
  • 很多朋友都问到Windows下Linux安全联机的问题,下面为大家讲解一下 Windows的下PuTTY , FileZilla与Ultra
  • 自从Discuz!论坛系统推出7.0版本之后,系统的自带风格、默认头像等都更加时尚与新潮了。但有些论坛的会员上传低俗、违法头像,破坏了论坛社
  • “百度更喜欢独特的原创内容,如果您的站点内容只是从各处采集复制而成,很可能不会被百度收录。”Goog
  • 众所周知,服务器是计算机网络中最重要的资源,对其安全要求很高。如果我们正在运行的服务器没有进行正确的谨慎配置,就可能将大量的有用信息泄漏出去
  • IIS6.0应用程序池回收和工作进程 公司的一个网站程序长时间运行后,速度变慢,重新启动网站后速度明显变快,估计是网站程序占用的内存和CPU
  • FAT32 标称为65534,实际到2万+时已不稳定。NTFS 似乎没有明确限制单目录文件数量,但有人反应在生成10万+ 文件的目录时遇到报
  • SEO需要灵活运用。SEO技术是死的,但是我们的大脑不是死的!!!最近在好多地方见到朋友说自己的站已经好久没有被百度更新了。还有一个关系比较
  • 软文写作最常遭遇问题:网络营销者、网站站长、文案写作者、销售人员最头疼的问题常常是不知道该写些什么,缺乏软文写作的思路和方向,本次,我们以实
  • 现在有许多新站长抱怨百度对新站的收录速度问题,虽然我也是新的站长,我的网站暂时还没有被百度收录,但我还是要发表一下我对百度收录的几点看法:1
手机版 网站运营 asp之家 www.aspxhome.com