网站运营
位置:首页>> 网站运营>> 服务器日志法网站分析的原理及优缺点(3)

服务器日志法网站分析的原理及优缺点(3)

 来源:网站分析在中国 发布时间:2010-07-05 11:16:00 

标签:日志,服务器,网站分析

3. 用网站服务器日志方法进行网站分析的缺点

日志方法能够起到作用的前提是服务器要响应来自客户端的请求,如果客户端的请求不通过服务器就得到了响应(这其实是经常发生的),那么服务器日志法就无能为力了。

1. 害怕网页缓存(Cache)

为了提高网站页面的载入速度,人们发明了网页缓存(Cache)。在台湾,Cache被翻译作“快取”,似乎兼备了音义。

网页缓存的原理很容易理解,但却是个了不起的发明。在缓存出现之前,人们访问网站每次都需要把网页从网站的服务器传输到客户端的浏览器中,这个速度当然会有点儿慢,尤其是网络条件不好的时候。于是善动脑筋的人们发现,每次访问的网站其实有很多内容是没有更新的,如果能够把那些不经常更新的部分放在自己的电脑里面,每次打开网页的时候,首先搜索自己电脑里面已经有的内容,然后再去服务器去寻找那些被更新了的部分,这样服务器传输的数据量就会大大减少了,整个网页也会被更快地显示出来。

现在,我们大部分人的浏览器都设置了缓存。所以,有时候,你会发现,即使网络没有接通,你访问的网站似乎也能“正常”打开,只不过浏览器会显示“脱机”状态,告诉你,这些内容不是真正从服务器传输过来的。

除了客户端(浏览器)能够存放缓存的内容外,代理服务器(Proxy)也能够存放网页缓存,目的同样是为了提速。你可以把代理服务器的缓存想象成CPU的“二级缓存”——当客户端没有存储某个网页的缓存的时候(“一级缓存”没有内容),浏览器就会寻找代理服务器缓存,看看有没有内容。如果还没有,那才会再去寻找真正存放网页内容的网站服务器。

有了缓存,当你点击浏览器的“回退按钮”的时候,回退的上一个页面就不需要再重新从服务器中下载一次,而是立即就呈现在你的面前。你常用的网站的打开速度也显著提升了。

可是,对于通过服务器日志来获取网站访问数据的方法而言,这可不是一个好事情。由于缓存的存在,本来应该请求服务器的结果不需要请求了,服务器的日志什么也不会记录下来,可是对页面的访问却又实实在在的发生了。

所以,缓存的存在会使日志方法低估网站的实际访问量。

2. 害怕Flash等“客户端交互”内容

现在,为了更具冲击力的视觉效果和更丰富的网页互动,运用Flash、加入视频、设计很多互动程序在网页上已经稀疏平常。而这些元素,它们太独立了,以至于当它们被载入到浏览器端了之后,完全可以在浏览器端运行而不再与服务器发生交互,或者只需要在必要的时候才与服务器发生交互。

比如,你玩儿普通网页版的Flash小游戏,一旦游戏下载完毕,你在玩儿的过程中跟网站服务器就不会有什么联系了,或者你看网页上的视频,你在播放器上进行的暂停操作,一般也不会跟服务器进行互动。还有,有一些脚本语言编写的网页程序,是在浏览器上被解释执行的,比如用JavaScript实现的网页Tab标签切换,在页面全部载完后,无论你怎么切换Tab,服务器都感觉不到了。

服务器感觉不到,也就不会存在什么服务器日志记录,也就不会有数据,因此用日志方法是无法准确获取“客户端交互”类型的网站访问行为的。这种情况下,必须选择其他的数据收集方法。

3. 不精确的访问者记录

日志方法辨别独立访问者需要依靠客户端的IP地址,也只能依靠它。不过,IP地址显然不代表真正的访问者。上班族的整个办公室的IP地址都可能是一个(使用代理服务器),而这个办公室可能坐着十多个人。这可能使访问者的数量被低估。

同样,在家中,如果你购买了公共网络服务,那么你的IP地址存在动态分配的问题。你今天上网的IP地址和明天的可能就会不同,这个时候日志方法只能判断为两个不同的访问者。这又可能使访问者的数量被高估。

此外,前面提到过日志是能够忠实记录机器(非人为)的访问活动的,但是机器不是人,它们的活动混在真实的人的访问之中,同样会使真实访问者的数量,或者访问数本身被高估。

在这正反两相反方向的共同作用下,结果只能一个,那就是对于访问者数量的估算是非常模糊的。当然,我们必须要承认,无论用什么方法,网站访问者的精确数量都无法获得,但相对而言,日志方法要更不准确些。

4. 较弱的实时性

没错,网站服务器日志是记录服务器运行的实时数据的,但是这些数据想要被取出分析,实时性就没有那么好了。常见的情况是,你必须首先把服务器日志文件(log file)从服务器中取出来,而这些文件肯定不会是服务器正在运行过程中的数据,一般都是隔天的(需要验证),然后再把这些日志文件导入到专门针对日志分析的工具中才能进行分析。这个过程的快慢依赖于你的熟练程度,但要追求实时,颇有难度。

有技术高超的站长或者工程师通过架设内部网络、组建专门的日志分析服务器,并且编写特定的程序来解决日志分析的实时性问题(http://www.phparticle.net/htmldata/36462/1/),但是,对于普通的中小网站,这种方法难度颇大,花费不菲,所以可行性不强。因此,实时性是绝大部分通过日志方法来分析网站数据时要面对的问题。

5. 海量的数据存储

  服务器日志是忠实的,所以它会如实记录下来每一分每一秒发生的每一条服务器响应。对于一些流量稍大的网站,一天的网站日志记录超过数个G(Gigabytes)是非常正常的,而那些最大的网站,一个小时就可能产生数G的记录。我们没有詹姆斯·卡梅隆的超级团队(他的《阿凡达》特效需要处理超过500,000G的数据),所以如果要回溯网站一个月的流量就可能变成一个相当棘手的问题,需要投入相当的时间和耐心,如果你没有相当的技术和经验,效率就会很低。

6. 日志文件获取繁琐

我们不能把日志文件的获取想象的太简单,毕竟这不是在自己卧室的电脑中点开一个MP3文件那么容易。有些网站有镜像服务器,有些服务器在境外,有些服务器是由处在多个不同地理位置的物理服务器逻辑组合而成。这些情况下,在进行日志分析之前需要集中所有的日志文件,这是一个很有些麻烦的事情,尤其是当日志文件的体积极为庞大的时候。另外,如果是租用的ISP服务器空间,如果没有权限获取日志数据,那么实际上连进行分析的可能性都没有了。

现在,你完全了解了日志方法收集网站分析数据的优缺点,那么,什么情况下你应该选择这种方法进行网站分析呢?

0
投稿

猜你喜欢

  • 1、使用Akisment或者Math Comment插件,保护博客不受垃圾链接的侵扰;2、将Google Analytics等统计服务代码尽
  • Linux服务器操作已经非常简单,但是难免会有人犯下一些小的错误,比如说误删文件,该文章将告诉你如何快速解决此问题。服务器误删了/usr/b
  • 很久没更新了,今天(12月11日)新增三个网摘代码,分别是飞豆、抓虾、鲜果,这些都是著名的网摘网站。你可以在此篇文章最后看到新增的网摘代码。
  • 网络一个虚拟的空间,却笼络了这么多的人心.由此可以看出它的魔力.现在SP的萧条,使一些电影站点与音乐站点纷纷找买主,因为有的连服务器费用都赚
  • 2008新春大假宣告落幕。日前百度发布“2008春节热点报告”,报告通过对亿万网民的检索数据分析,反映了春节期间人们关注的焦点话题,如,春运
  •   就是直接限制网络流量,这种限制通常是最严厉的一种流量限制,10个g的流量大体支持50人在线以内.当月流量超过后,在一个月内网站
  • 前一段时间开发需要经常使用 pip 下载,虽然把 pip 源改成了国内源,但我对速度还是不满意,更为重要的是集成测试环境是离线的,要在集成测
  • 假如你在你的托管帐户上存储了archive files,你可能需要unarchive,要么再次使用某个文档,要么只是解压某个你已上传的文件。
  • 谷歌声称其 AdWords的实时定位和详细报告为客户抵御经济衰退找到了一个有效的方式。 该公司提供了六个详细战术使您的AdWords投资最大
  • 经过数月的紧张开发,TM2009系列的第二个稳定版今天发布了!这个版本增加了传文件夹、插件管理、锁定等多项功能,大大增强了实用性。TM200
  • 进入到2010年,网络赚钱经历了这么些年的发展,现在已经出现了很多类型的网赚项目,网络赚钱这一行业正愈发繁荣起来,面多鱼龙混杂的网赚项目,网
  • 据国外媒体报道,Mozilla基金会主席米歇尔·贝克(MitchellBaker)周四表示,Mozilla不会跟风谷歌
  • 一、概念篇在介绍排查DHCP故障之前首先为大家阐明几个概念性的东西,只有理论上充实了,才能更好的理解下面介绍的故障排除的思路。第一:DHCP
  • 在副业上花了太多精力了,是要回归正轨的时候了,时间不多了,加油干啊!现在用笔写不习惯了,只有在电脑上打出来才舒服。把笔记传上来,有了新知识点
  • 恋爱男女,甚至是宝贝妈妈,兴致来时都喜欢上街找个大头贴机猛拍一阵,简单方便但是缺乏更多的个性。其实自己利用数码相机,找款专门的大头贴软件自己
  • DNS欺骗是一种非常复杂的攻击手段。但是它使用起来比IP欺骗要简单一些,所以也比较常见。最近一个利用DNS欺骗进行攻击的案列,是全球著名网络
  •  SEO Digger [ 关键词查询, 排名查询 ] - 检测你站点中已经有比较好排名的关键词,并可以查看他们排名的位置。我想,
  • 有很多发布商不能确定自己的网页投放哪一种广告格式和颜色效果最好。也有些发布商认为自己目前投放的广告格式就是最好的,而事实是不是真的是这样呢?
  • 在过去的一年里,受流氓/恶意软件感染的网站数目从每周几个增长到每周数千。在我们以前的帖子“关于恶意软件警告”以及“停止恶意软件讨论组”里,我
  • 借上周推一把论坛举办《高手坐堂第一期宋建明:软文与网站优化的那点事》的机会,彭宇诚针对如何利用软文推广产品的问题与本期的嘉宾宋建明进行了一些
手机版 网站运营 asp之家 www.aspxhome.com