网站日志分析方法系列一:聚焦式分析
作者:王雪莲 来源:aliued 发布时间:2011-01-06 12:30:00
在网页运营改版过程中,经常有设计师或者运营同事有这样的疑问:我的页面到底产生了多大价值?这个页面引导的用户接下来访问了多少商品的页面?有没有产生交易?有没有到我想让用户去的那些页面?
如果使用数据库查询,固然可以得到一些结果,但查询过程过于复杂,数据量大的网站查询耗时太长,很难灵活应用到普通页面。本文提出一种相对简单的分析方法可以解决这个问题。
每个用户在网站上的访问轨迹在网站日志或者数据库中,都是一串URL,有的只访问了一两步,有的访问了成百上千步,如何在如此复杂繁多的数据中找到用户在访问某个页面(例如服装首页)之前或者之后n步,有多少人访问过特定页面(例如交易页面)?
先抛开这个问题,我们想象这样一个场景:在一个大会场中,熟人坐在某个座位上,如果我们知道他们的位置,我们的眼睛很容易聚焦到这几个位置,自动忽略其他座位的人,请参看图1。同样,人们在观察周围事物时,经常会把精力聚焦到自己关心的事物上,下意识忽略其他。我们曾经做过这样的实验,我们的报告厅有4个很大的外置式扩音器,分列在两侧。注意不是那种不显眼的内置式,任何人只要稍微留心就会看到。而当我们要求会场的人闭上眼睛回答会场有几个扩音器时,很少有人能给出正确答案,因为大部分人会关心更重要的东西,比如会议内容,提问问题,甚至是如何找个舒适的位子也比扩音器的多少更让人关心。
图1
回到我们网站碰到的问题,某个项目的设计师关心的页面并非全部,而只是几个与之页面有关的页面和部分重要的指标页面。因此我们可以去除相关性不大的页面,只保留关心页面,从而缩短用户路径,大大提高计算效率。
另外,我们把索引的思想引入分析过程中,把网页的URL按照一定规则(例如正则表达式)替换成简单字符,把相关性不大的页面统计替换为同一个字符(例如“0”),把一些过渡性的页面替换成某个字符(例如”p”),如此以来,每个用户的访问路径就可以表示为一个字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用户的访问路径全为相关性不大的页面,此时,路径为”0,0,0,0,0,0,0,0,0,0,0,0,0,0”,这表示用户并未访问到目标页面,如果不需要计算用户比例或用户分类,那么这样的记录我们可以删除掉。
如果需要保留其他的用户信息,例如cookieid,登录名,访问时间等信息,这个字符串会更加复杂些。如果我们研究目的比较简单,还可以进一步处理,如果不需要对步长信息进行分析,我们可以去掉相邻重复的一些数据,把上式简化为” a,c,0,a,p,c,0,c,t,0”。
这个过程请参看图2中的①和②,由此我们可以得到多个用户的路径的字符串形式的文件。
图2
得到这个聚焦式用户路径文件后,我们就可以对这个字符串文件进行分析了。例如,我们需要计算a页面后有多少个c页面,需要能忽略中间的翻页页面(p页面)。在上例中的这个用户的字符串中,就是1个用户,2次c页面。如果在访问了其他页面之后再访问c页面的行为也可计算入内的话,那就是1个用户,3次c页面。
接下来就是分析的样本量问题。一般分析过程中会讲究“多而全”,但数据量大到一定级别,分析1/10甚至1/100人群与分析全样本所得到的结果相差无几,花费很多资源去提升一点精确度是一件很得不偿失的事情。因此可以酌情分析小样本量,节省分析成本。
由于目标页面业务的独特性,每次需要分析的方式也很个性化。路径查询器可以灵活应对各种查询。例如,我们需要计算a后面有t的人次,a后面紧跟着c的人次,行为符合某种模式的用户数有多少等等。需要统计的模式在分析算法配置文件(图2中的③)中进行配置,查询器会计算并导出最终结果。
另外,查询器还支持分类信息查询,根据用户路径文件的配置信息,对每种分类的人群分别查询,或者导出符合某种模式的人群Cookieid,用户名等,与其他数据存储媒介联接,取得这部分人群的其他信息,从而进行综合分析。
这种方法优点在于比较灵活,如果网站的URL规则比较规范,在配置过程中可以多采用正则表达式,从而可以发现更多有趣的现象。


猜你喜欢
- 1 从信托的网站上,加入到本地的链接联盟中2 如果您有足够的有价值的信息并认识一个教授的话,与地方高校建立链接是有意义的3 加入更好的商业协
- 4)我如何使用户登陆时不显示ftp服务器版本信息,以增强安全性?在proftpd.conf中添加如下内容:ServerIdentoff则再次
- 中秋节就快到了,提前祝各位站长节日快乐,站站顺利!如何利用中秋节推广网站,下面几条可能有点帮助,希望能为大家抛砖引玉。。带来流量上的提升。一
- 本文为大家分享了Ubuntu虚拟机多网卡配置,供大家参考,具体内容如下1、场景说明 系统平台:Ubuntu16.04 服务器:V
- 你会发现,由于oracle 10g 建立了“perl5lib”的环境变量路径,从而导致xampp启动apache的时候报错: [Thu Oc
- 一、网站设计网站全站用W3C网站设计制作,采用DIV+CSS进行网页布局设计,title与meta字数控制在15字以上,少用图片、Flash
- 最近抽空在虚拟机上测试成功了LAMP各个最新版本的整合编译安装,算是把之前的博文整合精简,以下内容均在CENTOS6.3(安装minimal
- 搜索方便我们的生活,而实际上,它还在记录我们的生活。比如,在大年初五浏览谷歌“热榜”(rebang.google.cn),你会发现最热门的搜
- 在工作中有时候需要在服务器的环境下远程调试,例如调试微信相关服务的时候。1. 下载远程调试工具网址:https://visualstudio
- 下述设置以时钟源服务器IP地址为192.168.0.1为例。可以命令ntpstat 和 ntpq -p 查看本机NTPD服务状态。配置完成后
- WordPress2.9.1发布的时候,WordPress核心开发团队也间接的谈到了一些关于WordPress3.0版本的一些想法,虽然没有
- 一、域名过期后第一阶段域名过期后1~45天内,将处于注册商保留状态whois英文状态:REGISTRAR-HOLD二、域名过期后第二阶段 注
- 目前最新版是2.7.1 ,可去其FTP下载:http://www.thekelleys.org.uk/dnsmasq/安装过程比较简单yum
- Discuz!7.0是康盛创想(Comsenz)公司于2008年12月份发布的一款论坛BBS建站产品。在Discuz!7.0中,界面风格设置
- 10月12日消息,据路透社11日报道,英国媒体集团BSkyB将于下周发布数字音乐服务-Sky Songs。该集团希望能够通过此举,在音乐下载
- Alexa网站创建于1996年4月,1999年成为亚马逊网站的全资子公司。Alexa网站最初是一个分类导航网站,也提供关于网络的动态相关数据
- 现在很多中小网站(尤其是 Web 2.0 站点) 都允许用户上传图片,如果前期没有很好的规划,那么随着图片文件的增多,无论是管理还是性能上都
- 前置知识Compose 是 Docker 容器进行编排的工具, 是一个整合发布docker应用的利器,可定义和运行多容器的应用,在 Comp
- 1、选择主题。主题选好也就成功了一半,所以这个步骤必须慎重考虑。主要有以下几方面因素:热门指数、该类主题的网站数量及其发展情况、该主题可能的
- 从 www.godaddy.com 登录后 选择Domains 选项下的My domains,如下图: 或者另外的一种办法:进入我