网站运营
位置:首页>> 网站运营>> 服务器日志法网站分析的原理及优缺点

服务器日志法网站分析的原理及优缺点

 来源:网站分析在中国 发布时间:2010-07-05 11:16:00 

标签:日志,服务器,网站分析

【前言】

应朋友们的要求,我还是写一篇关于服务器日志法进行网站分析的原理以及它的优缺点是什么。请朋友们注意,网站服务器日志法并不容易进行,初学者,以及在绝大多数情况下,进行以用户行为分析为核心的网站分析,用不到服务器日志法。不过,作为网站分析历史不可分割的一部分以及重要的基础篇章,服务器日志法仍然值得一书。下面的这篇文章也是我要撰写的书中截取的内容(我要快马加鞭快快写了,已经辜负了太多朋友的重托,抱歉抱歉!)。

【正文】

网站分析收集数据的方式其实有五、六种之多,我们最常见的有三种,分别是:服务器日志(Server Log)、页面标记(Page Tag)和客户端监测软件收集(Client End/Desktop)。我的CWA博客(http://www.chinawebanalytics.cn)中主要讲解的都是页面标记法,今天则跟大家讲解一下服务器日志方法的原理及优缺点。

1. 服务器日志是什么

真正意义上的网站分析是从服务器日志开始的,而且直到今天,分析服务器(也称为server log file,或简称log file)日志仍然是网站分析的重要方法。

这里的服务器指的是网站服务器(Web Server),而服务器日志跟飞机的黑匣子一样,是用来记录网站服务器的运行信息的,或者简单说,是用来记录服务器中的什么页面在什么时候被谁访问了。例如,如果你访问一次我的网站:http://www.chinawebanalytics.cn,那么一般情况下,网站服务器的日志就会记录在某时某刻来自某个IP的访问者索引了网页“/index.php”。当然,网站服务器日志还会记录其他许多内容,这些内容能够帮助我们分析网站的流量和访问者在网站上的行为。

下面这个图说明了网站日志是如何产生的。当用户访问一个网站的时候,事实上是访问这个网站的某一个具体的页面,我们假设这个页面叫Page 1。这时,我们的这个访问行为会请求服务器中Page 1的实际的文件,随之把这个文件下载到浏览器上。由于请求和下载行为都会引起服务器的响应和相应的行动,因此就有必要记录下服务器的这些行动。

你会问,为什么需要记录服务器的行动呢?原因很简单,因为我们不想让这个服务器变成“哈尔9000”(哈尔9000是库布里克《2001太空奥德赛》里面有了自我意识的电脑,它直接威胁到了电影中的宇航员)啊!这当然只是开玩笑,不过目的并无差别,就是能够通过服务器日志,对服务器的运行历史进行记录,这样当有任何异常情况发生的时候,我们都能够通过日志探寻问题发生的原因——跟记录飞机运行状态的黑匣子的作用十分类似。

原理看起来并不复杂,不过log file实际上并不简单。为了让log file具有可读性,log file并不可以按照各个网站所有者的喜好随意记录的,而是有自己的规范。W3C组织定义了server log file的通用格式(如果你有兴趣,可以在这里看看这些格式都是如何定义的:http://www.w3.org/Daemon/User/Config/Logging.html#common_logfile_format),而其他一些组织或者个人又根据自己的需要额外扩展了这个格式,使log file能够比较全面地记录网站服务器进行的各种活动。

一条标准的web server log记录通常包含如下信息:

l 远程主机(Remote Host)的IP地址/名字

l 登录名(Log Name)

l 登录全名(Full Name)

l 请求发生的日期(Date)

l 请求发生的时间(Time)

l 和标准格林威治时间的差值(GMT Offset)

l 请求的方法(Request Method)

l 请求的文件的地址(File)

l 请求遵守的协议(Protocol)

l 请求的状态(Status)

l 被请求文档的长度(Length)

下面是一条标准的log file记录:

202.71.113.38 – - [03/Jan/2010:01:56:12 +0800] “GET /Chinawebanalytics/Sidney.htm HTTP/1.0” 200 5122

从左到右,202.71.113.38就是远程主机的IP;而登录名和登录全名指的是发起这个请求的用户的名字,这个一般大家当然是不想要透露的了,所以远程主机会禁止给出这两个信息,log file当然就记录不下来了,用两个短中划线代替。然后,03/Jan/2010是请求发生的日期,01:56:12则是时间,之后的+0800是指比格林威治时间要晚8个小时,就是我们北京时间了。再之后的GET是请求的方法,另一种方法是POST,可以简单理解为GET就是索取,POST就是提交。接着:/Chinawebanalytics/Sidney.htm是被请求文件的地址,可以是绝对地址也可以是相对地址。HTTP/1.0是请求所遵守的协议,这里的协议是HTTP 1.0。整个记录的结尾是两个数字,其中200表示一种请求的状态,意思是请求一切正常。有时候这个数字会显示为404,相信大家一看到这个数字就头痛,它表示请求的文件无法找到(file not found);又有时候,这个数字会显示为301,表示页面被重新定向到了别的地址。最后的一个数字5593,表示所请求的文档的长度为5122 bytes。

通用格式其实很简单,但是里面的这11类记录往往不足够帮助我们进行更深入的分析,因此其他的一些记录被加入进来,其中最重要的一些是:

l 请求来源(Referrer):指连接到被请求资源的网站的URL。如果请求时通过点击一个链接时发生,那么这个项目就会被记录;

l 客户端(User Agent):记录用户的浏览器或者发出请求的程序的相关信息;

l 所需时间(Time Taken):从请求的发出到请求的资源全部传输完毕所需花费的时间;

l Cookie。

看起来,网站服务器日志所记录的内容是很有限的,比起我们动辄上万行的编程实在是九牛一毛。但是,千万别认为网站服务器日志文件会很小,对于一些大网站,每分每秒都有很多访问者对网站服务器进行请求,所以日志文件会积少成多,成为巨型的数据文件。有时候,一个小时的记录就能超过数G。什么,你网站的服务器日志一个月才1M?要加油啊,没有人气的网站可没有生命力。

  讲到这儿,该说说历史了。网站分析就是从网站服务器日志开始的,或者更准确的说,网站服务器日志自诞生之日起,就是为网站分析所用的。最早,人们可是把所有的记录都拿出来,然后导入到数据软件中去进行分析,辛苦程度自不用说;但这个痛苦的阶段不会持续太久,哪儿有痛苦,哪儿就有生意,所以网站日志分析软件就出现了,解决了很大的问题,以至于大小互联网服务提供商(ISP)们都为租用他们空间的用户提供一款免费的网站日志分析软件。尽管如此,分析网站日志一直都是一个相当不容易的事情,所以,人们不得不寻找一些更便利的方法,这样便发明了网站分析的新的数据获取方法,这是后话了。

如果你问我什么情况下选择用网站服务器日志来进行网站分析,我建议你如非必须,那么还是寻找一些更容易的方法能够事半功倍。看看后面的内容,你就能知道我为什么这么说。

0
投稿

猜你喜欢

  • 中新网10月10日电 今天上午,卫生部疾病预防控制局副局长孔灵芝表示,关于网瘾诊断标准的问题,我国现在正在研究之中,没有把它作为精神障碍的特
  • 从2009年到2011年,接触Dedecms已经有2个年头了,在这期间使用DEDE制作了有10来个网站,有些网站也取得不错的搜索排名和流量,
  • 随着Linux企业应用的扩展,有大量的网络服务器使用Linux操作系统。Linux服务器的安全性能受到越来越多的关注,这里根据Linux服务
  • 中国领先的社区平台与服务提供商康盛创想(Comsenz)旗下核心产品Discuz!新版正式发布。全新推出的Discuz! 7.2版本从用户注
  • 由于众所周知的原因,微软的产品总能吸引黑客们的目光,IIS也不例外。IIS是什么?即因特网信息服务,作为当今流行的Web服务器之一,它提供了
  • 建立博客有助于打造卓越企业的核心要件。企业的核心需求如下所示:妙点子好产品能见度训练有素的团队,为企业的成功而努力不懈提升业务的创意,改善公
  • 最近,发现博客上的AdSense广告上显示的几乎是Google自己的广告。也就是“马上获得350元免费广告”,如下图。估计是因为关键词匹配不
  • 由于周边环境的原因,我接触网络不是很久,可以这样说,高中以前连电脑是什么样子也没见过,只听同学讲过,以及课外书上描述的。电脑于我来说似乎是可
  • 在论坛更换域名后,由于地址发生了变化,导致一些还是保留原地址的链接发生错误,表现为图片不显示,附件不能下载等一些问题。解决这些问题的根本办法
  • 英国一家游戏公司定于下月推出的一款网络游戏将监控摄像头连到互联网上,让游戏玩家从画面中寻找“不法行为&rdquo
  • 在这个被Ajax技术统治的互联网时代,很多Ajax程序都会在异步读取数据的同时,显示一个正在读取或Loading的动画。今天彬Go要向大家推
  • 根据对一些站长的最新调查显示,百度收录新网站的大约时间是2周。也就是说,新站做好了,需要等2周时间才能在百度收录。只有很少一部分幸运的站长,
  • 国内Internet的连接速度不尽如人意已是不争的事实,于是许多网友软硬兼施,以求最大限度地提高上网速度。一时间快猫加鞭、NetAnts等网
  • 北京时间11月17日消息,据国外媒体报道,俄罗斯有关机构表示,若动视暴雪的新作《使命召唤:现代战争2》不做修改,那么就可能遭到被封杀的命运。
  • 看到起点被收编了、hao123也回家数钱玩了、QQ挂机、 * 短信、各种 * 都火了,赚钱了。于是乎,工作室、soho、再创业者也就多了。千奇百
  • 木马是一种基于远程控制的病毒程序,该程序具有很强的隐蔽性和危害性,它可以在人不知鬼不觉的状态下控制你或者监视你。有人说,既然木马这么厉害,那
  • 破解目标:破解一经过加密的Asp木马登陆密码。由于木马里没有版本说明,具体也不知道这木马叫什么名。破解思路:两种,用加密后的密码替换密文和利
  • 根据不同的划分标准,网站可分成好几种类型,如将网站按照主体性质不同可分为政府网站、企业网站、商业网站、教育科研机构网站、个人网站、其它非盈利
  • Discuz! 7.1版本进一步完善和创新社区论坛系统的功能,用户采用在Discuz! 7.1搭建的社区论坛中可以注册一个帐号,登录浏览更多
  • c:\administrators 全部system 全部iis_wpg 只有该文件夹列出文件夹/读数据读属性读扩展属性读取权限c:\ine
手机版 网站运营 asp之家 www.aspxhome.com