服务器日志法网站分析的原理及优缺点
来源:网站分析在中国 发布时间:2010-07-05 11:16:00
【前言】
应朋友们的要求,我还是写一篇关于服务器日志法进行网站分析的原理以及它的优缺点是什么。请朋友们注意,网站服务器日志法并不容易进行,初学者,以及在绝大多数情况下,进行以用户行为分析为核心的网站分析,用不到服务器日志法。不过,作为网站分析历史不可分割的一部分以及重要的基础篇章,服务器日志法仍然值得一书。下面的这篇文章也是我要撰写的书中截取的内容(我要快马加鞭快快写了,已经辜负了太多朋友的重托,抱歉抱歉!)。
【正文】
网站分析收集数据的方式其实有五、六种之多,我们最常见的有三种,分别是:服务器日志(Server Log)、页面标记(Page Tag)和客户端监测软件收集(Client End/Desktop)。我的CWA博客(http://www.chinawebanalytics.cn)中主要讲解的都是页面标记法,今天则跟大家讲解一下服务器日志方法的原理及优缺点。
1. 服务器日志是什么
真正意义上的网站分析是从服务器日志开始的,而且直到今天,分析服务器(也称为server log file,或简称log file)日志仍然是网站分析的重要方法。
这里的服务器指的是网站服务器(Web Server),而服务器日志跟飞机的黑匣子一样,是用来记录网站服务器的运行信息的,或者简单说,是用来记录服务器中的什么页面在什么时候被谁访问了。例如,如果你访问一次我的网站:http://www.chinawebanalytics.cn,那么一般情况下,网站服务器的日志就会记录在某时某刻来自某个IP的访问者索引了网页“/index.php”。当然,网站服务器日志还会记录其他许多内容,这些内容能够帮助我们分析网站的流量和访问者在网站上的行为。
下面这个图说明了网站日志是如何产生的。当用户访问一个网站的时候,事实上是访问这个网站的某一个具体的页面,我们假设这个页面叫Page 1。这时,我们的这个访问行为会请求服务器中Page 1的实际的文件,随之把这个文件下载到浏览器上。由于请求和下载行为都会引起服务器的响应和相应的行动,因此就有必要记录下服务器的这些行动。
你会问,为什么需要记录服务器的行动呢?原因很简单,因为我们不想让这个服务器变成“哈尔9000”(哈尔9000是库布里克《2001太空奥德赛》里面有了自我意识的电脑,它直接威胁到了电影中的宇航员)啊!这当然只是开玩笑,不过目的并无差别,就是能够通过服务器日志,对服务器的运行历史进行记录,这样当有任何异常情况发生的时候,我们都能够通过日志探寻问题发生的原因——跟记录飞机运行状态的黑匣子的作用十分类似。
原理看起来并不复杂,不过log file实际上并不简单。为了让log file具有可读性,log file并不可以按照各个网站所有者的喜好随意记录的,而是有自己的规范。W3C组织定义了server log file的通用格式(如果你有兴趣,可以在这里看看这些格式都是如何定义的:http://www.w3.org/Daemon/User/Config/Logging.html#common_logfile_format),而其他一些组织或者个人又根据自己的需要额外扩展了这个格式,使log file能够比较全面地记录网站服务器进行的各种活动。
一条标准的web server log记录通常包含如下信息:
l 远程主机(Remote Host)的IP地址/名字
l 登录名(Log Name)
l 登录全名(Full Name)
l 请求发生的日期(Date)
l 请求发生的时间(Time)
l 和标准格林威治时间的差值(GMT Offset)
l 请求的方法(Request Method)
l 请求的文件的地址(File)
l 请求遵守的协议(Protocol)
l 请求的状态(Status)
l 被请求文档的长度(Length)
下面是一条标准的log file记录:
202.71.113.38 – - [03/Jan/2010:01:56:12 +0800] “GET /Chinawebanalytics/Sidney.htm HTTP/1.0” 200 5122
从左到右,202.71.113.38就是远程主机的IP;而登录名和登录全名指的是发起这个请求的用户的名字,这个一般大家当然是不想要透露的了,所以远程主机会禁止给出这两个信息,log file当然就记录不下来了,用两个短中划线代替。然后,03/Jan/2010是请求发生的日期,01:56:12则是时间,之后的+0800是指比格林威治时间要晚8个小时,就是我们北京时间了。再之后的GET是请求的方法,另一种方法是POST,可以简单理解为GET就是索取,POST就是提交。接着:/Chinawebanalytics/Sidney.htm是被请求文件的地址,可以是绝对地址也可以是相对地址。HTTP/1.0是请求所遵守的协议,这里的协议是HTTP 1.0。整个记录的结尾是两个数字,其中200表示一种请求的状态,意思是请求一切正常。有时候这个数字会显示为404,相信大家一看到这个数字就头痛,它表示请求的文件无法找到(file not found);又有时候,这个数字会显示为301,表示页面被重新定向到了别的地址。最后的一个数字5593,表示所请求的文档的长度为5122 bytes。
通用格式其实很简单,但是里面的这11类记录往往不足够帮助我们进行更深入的分析,因此其他的一些记录被加入进来,其中最重要的一些是:
l 请求来源(Referrer):指连接到被请求资源的网站的URL。如果请求时通过点击一个链接时发生,那么这个项目就会被记录;
l 客户端(User Agent):记录用户的浏览器或者发出请求的程序的相关信息;
l 所需时间(Time Taken):从请求的发出到请求的资源全部传输完毕所需花费的时间;
l Cookie。
看起来,网站服务器日志所记录的内容是很有限的,比起我们动辄上万行的编程实在是九牛一毛。但是,千万别认为网站服务器日志文件会很小,对于一些大网站,每分每秒都有很多访问者对网站服务器进行请求,所以日志文件会积少成多,成为巨型的数据文件。有时候,一个小时的记录就能超过数G。什么,你网站的服务器日志一个月才1M?要加油啊,没有人气的网站可没有生命力。
讲到这儿,该说说历史了。网站分析就是从网站服务器日志开始的,或者更准确的说,网站服务器日志自诞生之日起,就是为网站分析所用的。最早,人们可是把所有的记录都拿出来,然后导入到数据软件中去进行分析,辛苦程度自不用说;但这个痛苦的阶段不会持续太久,哪儿有痛苦,哪儿就有生意,所以网站日志分析软件就出现了,解决了很大的问题,以至于大小互联网服务提供商(ISP)们都为租用他们空间的用户提供一款免费的网站日志分析软件。尽管如此,分析网站日志一直都是一个相当不容易的事情,所以,人们不得不寻找一些更便利的方法,这样便发明了网站分析的新的数据获取方法,这是后话了。
如果你问我什么情况下选择用网站服务器日志来进行网站分析,我建议你如非必须,那么还是寻找一些更容易的方法能够事半功倍。看看后面的内容,你就能知道我为什么这么说。
猜你喜欢
- 想要成为一个合格的站长,做好再讲的网站是有很多因素的,下边,就这些问题说一说,如何才能建设好一个成功的网站。首先,一个成功的网站,定位一定要
- 3月2日消息,网易昨日开始对网站部业务进行调整,除了原网易执行副总编方三文离职外,网易还调整了其他人事分工和新业务架构。根据内部人士透露,原
- Godaddy主机用户怎样创建自己选择的新名字作为目录名的新目录呢?首先. 登陆你的Account Manager.第二. 在My Prod
- 搜索引擎快照是指搜索引擎在抓取网站时,对网页的一种缓存处理,快照都用户是非常有利的,快照可以在网站本身页面不存在或错误时也能查看,不会影响用
- 笔者阿霸的站长资源群有很多初级站长朋友,在群里日常的交流中,发现这些初级站长对SEO是有所了解。但是站长们在网站制作的细节上,往往掌握不到一
- 目录简介体系结构ESXI的优点一、什么是vSphere?二、虚拟机的好处三、为什么要使用虚拟机:四、vSphere基础物理架构五、vSphe
- 虚拟机是非常方便的测试软件,我们可以用来做各种测试,不会对硬件造成伤害,为了能够更加方便的演示环境,便于做各种例子;而又能保证主机的快速运行
- 简介xargs命令有两个要点。第一,你必须列出目标文件。第二,你必须指定对每个文件需要执行的命令或脚本。xargs命令被用来处理分布在不同目
- 搜索引擎优化项目的规划需要做什么?系统的分析,哪种SEO策略适合当前客户的网站。长尾关键词的方向、内容的方向、竞争的程度以及如何增加独特的网
- 打开:mode/o/m_friend.php查找:InitGP(array('step','page',
- 在CB上看到的Google 疯狂面试题,很多都是开放性的,没有标准的答案,题目后面附录了站长从网上搜索到的一些解题思路,仅供网友们参考。原文
- 从上到下修改typecho模版,我用的这个模版发现Title定义不是很好。在“Discuz论坛首页和内容页的Title分别定义”一文中,我写
- 北京时间11月16日消息,有消息称,谷歌正式推出Chrome操作系统的时间定于11月18日。科技博客网站TechCrunch在上周末曾透露,
- 3月19日消息,据国外媒体报道,有业内人士日前指出,在宽带连接几乎无处不在的今天,Google的搜索结果页面已经显得太单调。众所周知,Goo
- 现在以计算机维生的人越来越多了,尤其是个人站长一族,但你知道吗!天天坐在计算机前面想要维系健康美丽,又要与岁月硬撑可不容易,循环不良的坐姿,
- 为了能在已经存在iis6的服务器上运行自己的java程序,经过历时半年的尝试,今天终于搞定了,好开心啊。最开始是用iis直接连接tomcat
- 邮件服务器的配置同样是企业网络管理中经常要进行的任务之一。与Web网站、FTP站点服务器一样,邮件服务器的配置方案也非常之多,但对于中小型企
- 木马是一种基于远程控制的病毒程序,该程序具有很强的隐蔽性和危害性,它可以在人不知鬼不觉的状态下控制你或者监视你。有人说,既然木马这么厉害,那
- 用博客来推广网站很有用,经常听到很多人说,通过大量的注册博客,可以提高网站的流量,但是我想说的是开博客没错,而且也很有效,请不要忽视博客的质
- 本人是从事网站建设行业,站长朋友们都说专业做网站的来做站长,可以省不少力气,事实证明确实是这样,现在的网站建设行业粥少僧多,行业朋友们都活的