网站运营
位置:首页>> 网站运营>> 网站日志分析方法系列一:聚焦式分析

网站日志分析方法系列一:聚焦式分析

作者:王雪莲 来源:aliued 发布时间:2011-01-06 12:30:00 

标签:日志,分析,设计师

在网页运营改版过程中,经常有设计师或者运营同事有这样的疑问:我的页面到底产生了多大价值?这个页面引导的用户接下来访问了多少商品的页面?有没有产生交易?有没有到我想让用户去的那些页面?

如果使用数据库查询,固然可以得到一些结果,但查询过程过于复杂,数据量大的网站查询耗时太长,很难灵活应用到普通页面。本文提出一种相对简单的分析方法可以解决这个问题。


每个用户在网站上的访问轨迹在网站日志或者数据库中,都是一串URL,有的只访问了一两步,有的访问了成百上千步,如何在如此复杂繁多的数据中找到用户在访问某个页面(例如服装首页)之前或者之后n步,有多少人访问过特定页面(例如交易页面)?

先抛开这个问题,我们想象这样一个场景:在一个大会场中,熟人坐在某个座位上,如果我们知道他们的位置,我们的眼睛很容易聚焦到这几个位置,自动忽略其他座位的人,请参看图1。同样,人们在观察周围事物时,经常会把精力聚焦到自己关心的事物上,下意识忽略其他。我们曾经做过这样的实验,我们的报告厅有4个很大的外置式扩音器,分列在两侧。注意不是那种不显眼的内置式,任何人只要稍微留心就会看到。而当我们要求会场的人闭上眼睛回答会场有几个扩音器时,很少有人能给出正确答案,因为大部分人会关心更重要的东西,比如会议内容,提问问题,甚至是如何找个舒适的位子也比扩音器的多少更让人关心。

1

回到我们网站碰到的问题,某个项目的设计师关心的页面并非全部,而只是几个与之页面有关的页面和部分重要的指标页面。因此我们可以去除相关性不大的页面,只保留关心页面,从而缩短用户路径,大大提高计算效率。

另外,我们把索引的思想引入分析过程中,把网页的URL按照一定规则(例如正则表达式)替换成简单字符,把相关性不大的页面统计替换为同一个字符(例如“0”),把一些过渡性的页面替换成某个字符(例如”p”),如此以来,每个用户的访问路径就可以表示为一个字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用户的访问路径全为相关性不大的页面,此时,路径为”0,0,0,0,0,0,0,0,0,0,0,0,0,0”,这表示用户并未访问到目标页面,如果不需要计算用户比例或用户分类,那么这样的记录我们可以删除掉。

如果需要保留其他的用户信息,例如cookieid,登录名,访问时间等信息,这个字符串会更加复杂些。如果我们研究目的比较简单,还可以进一步处理,如果不需要对步长信息进行分析,我们可以去掉相邻重复的一些数据,把上式简化为” a,c,0,a,p,c,0,c,t,0”。

这个过程请参看图2中的①和②,由此我们可以得到多个用户的路径的字符串形式的文件。

图2

得到这个聚焦式用户路径文件后,我们就可以对这个字符串文件进行分析了。例如,我们需要计算a页面后有多少个c页面,需要能忽略中间的翻页页面(p页面)。在上例中的这个用户的字符串中,就是1个用户,2次c页面。如果在访问了其他页面之后再访问c页面的行为也可计算入内的话,那就是1个用户,3次c页面。

接下来就是分析的样本量问题。一般分析过程中会讲究“多而全”,但数据量大到一定级别,分析1/10甚至1/100人群与分析全样本所得到的结果相差无几,花费很多资源去提升一点精确度是一件很得不偿失的事情。因此可以酌情分析小样本量,节省分析成本。

由于目标页面业务的独特性,每次需要分析的方式也很个性化。路径查询器可以灵活应对各种查询。例如,我们需要计算a后面有t的人次,a后面紧跟着c的人次,行为符合某种模式的用户数有多少等等。需要统计的模式在分析算法配置文件(图2中的③)中进行配置,查询器会计算并导出最终结果。

另外,查询器还支持分类信息查询,根据用户路径文件的配置信息,对每种分类的人群分别查询,或者导出符合某种模式的人群Cookieid,用户名等,与其他数据存储媒介联接,取得这部分人群的其他信息,从而进行综合分析。

这种方法优点在于比较灵活,如果网站的URL规则比较规范,在配置过程中可以多采用正则表达式,从而可以发现更多有趣的现象。

0
投稿

猜你喜欢

  • 共享进行曲完成上面的WEB共享准备工作后,我们下面就需要将现成的IIS服务器改造成一个信息共享访问平台了,以后需要与他人交流的共享信息可以直
  • 很庆幸,12年前一不留神进入了IT行业,具体说,是进入了IT媒体领域。在最合适的时机,进入了最合适的领域,得以全程经历中国互联网的萌生和成长
  • 尽管看似已经是天下太平,但是实际上,微软、雅虎与伊坎之间的传奇故事还远没有到结束的时候,硅谷对此的最新看法是,雅虎很可能握有微软希望得到的某
  • 配置DNS的实例:1 所需配置文件:/etc/named.conf 系统自带,需要配置/etc/resolv.conf 系统自带,需要配置/
  • WAP2.0是什么意思? 它比WAP1.0好在哪些地方,听说上传图片,玲声都不要钱!是真的吗建议:是呀,是规范呀,是两个不同的版本WAP2.
  • 相信做过offer的朋友对LEAD应该不陌生,其实这两者没什么大的区别,都是注册,但是很显然做LEAD要比做offer赚的更多,因为Lead
  • 随着Web数据库的应用越来越广泛,Web数据库的安全问题日益突出,如何才能保证和加强数据库的安全性已成为目前必须要解决的问题。数据库系统安全
  • 注册表编辑器使用不当可造成严重问题,这些问题可能需要重新安装操作系统。Microsoft 不保证能够解决因为注册表编辑器使用不当而产生的问题
  • 总听高人说做站商业模式很重要。原来一直搞不清楚这个商业模式到底是什么东西,以为就是业务模式、就是怎么赚钱,现在觉得不是。会赚还要会花,商业模
  • #cccccc 1px dotted; TABLE-LAYOUT: fixed; BORDER-TOP: #cccccc 1px dotte
  • 作为Comsenz旗下的社区产品SupeSite 7.0 全面支持对 Discuz!、UCenter Home 的聚合功能。对于那些已经安装
  • 百度经过将近一个月的“调整”,终于在昨天即3月13号对网站收录、排名进行了大更新。论坛里又出现了很多问百度更新网站被k,关键字排名下降等等问
  • DNS服务器所提供的服务是完成将主机名和域名转换为IP地址的工作。为什么需要将主机名和域名转换为IP地址的工作呢?这是因为,当网络上的一台客
  • 香港 ns1.netvigator.com 205.252.144.228澳门 vassun2.macau.ctm.net 202.175.
  • 过去的三个月里 Google 宣布了在搜索结果的一系列新测试和新功能,值得回头来看看其间最频繁的,也研究下对于未来的优化工作会有什么潜在的影
  • 第一步:登录Godaddy控制面板,在面板左边选择自己的主机列表,点击进入列表页面:第二步,在列表中选择你要变更的主机,并点击,在右边出现后
  • 建站经历不到一年,在各位前辈面前,我只能算是一位新手。为什么会写这篇文章?一方面是看到各位前辈的讨论感觉受益颇多,怀着感恩的心分享一下拙见;
  • 在此介绍一下我在RedHat Linux 7.2下装Apache与Tomcat4整合的过程,重点讲述mod_webapp.so的制作方法,
  • 每年,我都会密切关注推出的新设计网站SEM最佳案例。在过去的四年或是五年时间里,我的大部分建议都是相同的。今天,我们讨论一些可以改变的技巧。
  • 在Windows XP IIS 中装一个PHP玩玩,用于本机进行php程序学习、测试。PHP下载:http://windows.php.ne
手机版 网站运营 asp之家 www.aspxhome.com