蜘蛛抓取静态页面与触发gzip压缩的实验结果
发布时间:2011-09-13 18:48:52
利用google管理员工具模拟googlebot抓取某静态页面,得到的HTTP头信息中没有Content-Encoding:gzip的标志,查看了content-length也是未压缩前的大小,所以很疑惑,是否蜘蛛的抓取不会触发gzip压缩,这是问题一。
问题一自己解决了,googlebot在向服务期发送http请求的过程中,Accept-Encoding项不出意外应该为空,我做了如下的实验,首先利用googlebot抓取该静态页面,确定得到的HTTP头信息中不存在Content-Encoding:gzip该项,并核对了content-length的大小。然后,使用浏览器访问触发服务器端对静态页面进行gzip压缩,用firebug确定返回了Content-Encoding:gzip以及content-length后,再次利用模拟googlebot抓取该页面,得到的头文件中终于出现了gzip的身影并且对比第一次抓取返回的content-length可以明确该页面被gzip大幅压缩过。
好吧,那我自问自答了。
得出的结论就是googlebot(应该也能适用到其他蜘蛛上)在抓取页面发送头信息的时候并不会触发gzip压缩,但是它的确读得懂被gzip压缩后的html文件,也就是如果你的网站本身有较高并且较深的访问流量,那么这个反而会大大的提高蜘蛛的抓取效率,所以这个有可能会成为SE判断一个网站流量乃至质量的一个因素
但接着我又有了问题二,那就是,gzip对静态页面的压缩版本在服务器上保存时间能有多久呢?
于是我拿了自己的一个美国站点以及一个国内站点进行了对比,发现同样都支持静态页面gzip压缩的两个站点反应却完全不同,国内的虚拟主机抽样查询了一些静态页面,发现全部为gzip压缩后的版本,也就是说,除非原页面发生了变动,那么国内该主机gzip压缩后的版本不出意外会永久性的保留在服务器端,但是美国的主机让我着实觉得被坑爹了一回,抽样的静态页面,初次访问全部没有gzip压缩版本,第二次重新访问才返回gzip压缩结果,打开速度提升,但是此后该压缩版本在一分钟左右会被删除,于是页面的打开速度又回到了原来的水平,我勒个去,这和没有开启gzip有什么区别啊。晚些回去检查下服务器设置,看是服务商坑爹还是自己美设置好。
关于问题二,找到了一张图片,应该能解释为什么美国主机上的gzip静态文件只会存在一会,不出意外应该和对方对临时目录大小的设置有关。


猜你喜欢
- 第一、网页的title,是你每次优化的重点。第二、title,description,keyword你写的越多,得到的就越少。第三、页面头部
- 本文介绍了Centos6.9安装vsftpd并配置多用户的方法,分享给大家,具体如下:一、安装vsftpd#安装vsftpdyum -y i
- “生铁”关键词阿里巴巴为什么在百度排名第一,这个问题钢铁业界的人士都很感兴趣,也迫不及待的想知道究竟
- 超好用的国产图片处理软件美图秀秀刚刚发布了2.0.6新版,在原有众多功能的基础上继续优化,也更为稳定的支持Windows 7系统。如果你还没
- 一台linux服务器受到ARP攻击,在使用arp -s绑定网关地址时发现命令不能正常使用.绑后网络会断.后经前辈指点在/etc下创
- 现在每个企业几乎都有自己的网站,而且有些网站做的很美观。对一个企业站来说,抓住客户签到单子是很重要的,有的会花大价钱去找SEO公司优化,也有
- 本节描述如何在Docker默认网桥中配置容器DNS。 当您安装Docker时,就会自动创建一个名为bridge 的桥接网络。注意 : Doc
- 配置环境硬件:家用计算机一台(含网卡),当然,速度越快越好;ADSL调制解调器,这个服务商一般会提供;ADSL路由器,不是必备的,但如果你处
- 最近一个朋友的Blog在做301重定向的过程中遇到了一些困难。大概的情况就是,原来的Blog域名不打算做了,在新的域名上重启炉灶,重新开始写
- 读者SEOMax问:请问你在做内联的时候是随便做呢 还是有目的的我见你的内联词 都没有多大意义啊[[安慰自己,深有体会,]]还有就是一般都在
- 在备受业界关注的《互联网视听节目服务规定》 * 以来,“信息网络传播视听节目许可证”(下称“视频牌照”)的颁发就受到了业内的广泛关注。近日,广
- 最近媒体进行大量报道 * 新闻,还举报CNNIC监管CN域名不利,接下来CNNIC * 一系列政策,比如未备案域名将停止解析等等。面对当下复杂的
- 一般而言,由于互联网用户在刚登录某网站时,会看到各种各样的广告。这些广告杂乱无章,因此,大多数的标语用户很容易看过就忘。行为追踪就是防止这种
- ldd 查看程序依赖库ldd作用:用来查看程式运行所需的共享库,常用来解决程式因缺少某个库文件而不能运行的一些问题。示例:查看test程序运
- 1、搜索引擎不友好搜索引擎对于难以处理和识别的打字稿、复数、连字号等等各种各样的问题,搜索的准确度会降低。显然,如果搜索引擎刻意
- 在用TCP/IP协议族架设的网络中,每一个节点都有一个唯一的IP地址,用来作为它们唯一的标志。然而,如果让使用者来记住这些毫无记忆规律的IP
- 度过了经济危机最严重的时间,最近视频行业重新热闹起来。不过,我感到很纳闷——易观国际的数据说,200
- 软文的含义,就是把广告很含蓄的表达在一些新闻里或者是一些其他类型的文章里,从表面上看不出这是广告,但是却潜移默化的感染着你,让你接受了他的广
- 第一步:将下面的代码复制到记事本,保存为“0.htm”后缀文件。并将这个文件上传到你网站空间的根目录
- 10月29日消息,日前,百度空间(hi.baidu.com)联合娃哈哈慈善基金会,共同发起“点亮爱的心愿”大型慈善公益活动,提交自己爱心梦想