Hive-SQL查询连续活跃登录用户思路详解
作者:奇遇yms 发布时间:2024-01-22 08:29:47
标签:SQL,查询,登陆,用户
连续活跃登陆的用户指至少连续2天都活跃登录的用户
解决类似场景的问题
创建数据
CREATE TABLE test5active(
dt string,
user_id string,
age int)
ROW format delimited fields terminated BY ',';
INSERT INTO TABLE test5active VALUES
('2019-02-11','user_1',23),('2019-02-11','user_2',19),
('2019-02-11','user_3',39),('2019-02-11','user_1',23),
('2019-02-11','user_3',39),('2019-02-11','user_1',23),
('2019-02-12','user_2',19),('2019-02-13','user_1',23),
('2019-02-15','user_2',19),('2019-02-16','user_2',19);
思路一:
1、因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重。
2、再用row_number() over(partition by _ order by _)函数将用户id分组,按照登陆时间进行排序。
3、计算登录日期减去第二步骤得到的结果值,用户连续登陆情况下,每次相减的结果都相同。
4、按照id和日期分组并求和,筛选大于等于2的即为连续活跃登陆的用户。
第一步:用户登录日期去重
select DISTINCT dt,user_id from test5active;
第二步:用row_number() over()函数计数
select
t1.user_id,t1.dt,
row_number() over(partition by t1.user_id order by t1.dt) day_rank
from
(
select DISTINCT dt,user_id from test5active
)t1;
第三步:日期减去计数值得到结果
select
t2.user_id,t2.dt,date_sub(t2.dt,t2.day_rank) as dis
from
(
select
t1.user_id,t1.dt,
row_number() over(partition by t1.user_id order by t1.dt) day_rank
from
(
select DISTINCT dt,user_id from test5active
)t1)t2;
第四步:根据id和结果分组并计算总和,大于等于2的即为连续登陆的用户,得到 用户id,开始日期,结束日期,连续登录天数
select
t3.user_id,min(t3.dt),max(t3.dt),count(1)
from
(
select
t2.user_id,t2.dt,date_sub(t2.dt,t2.day_rank) as dis
from
(
select
t1.user_id,t1.dt,
row_number() over(partition by t1.user_id order by t1.dt) day_rank
from
(
select DISTINCT dt,user_id from test5active
)t1
)t2
)t3 group by t3.user_id,t3.dis having count(1)>1;
用户id 开始日期 结束日期 连续登录天数
最后:连续登陆的用户
select distinct t4.user_id
from
(
select
t3.user_id,min(t3.dt),max(t3.dt),count(1)
from
(
select
t2.user_id,t2.dt,date_sub(t2.dt,t2.day_rank) as dis
from
(
select
t1.user_id,t1.dt,
row_number() over(partition by t1.user_id order by t1.dt) day_rank
from
(
select DISTINCT dt,user_id from test5active
)t1
)t2
)t3 group by t3.user_id,t3.dis having count(1)>1
)t4;
思路二:使用lag(向后)或者lead(向前)
select
user_id,t1.dt,
lead(t1.dt) over(partition by user_id order by t1.dt) as last_date_id
from
(
select DISTINCT dt,user_id from test5active
)t1;
select
distinct t2.user_id
from
(
select
user_id,t1.dt,
lead(t1.dt) over(partition by user_id order by t1.dt) as last_date_id
from
(
select DISTINCT dt,user_id from test5active
)t1
)t2 where datediff(last_date_id,t2.dt)=1;
参考:
2020年大厂面试题-数据仓库篇
SQL 查询连续登陆7天以上的用户
来源:https://www.cnblogs.com/yangms/p/14179403.html


猜你喜欢
- Python获取时间范围内日期列表和周列表的函数 1、获取日期列表# -*- coding=utf-8 -*-import datetime
- 我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了!回到用P
- BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是
- 地图 API Map() 构造器实例创建一个 Google 地图:<html><head><scriptsrc
- 本文实例讲述了mysql语句实现简单的增、删、改、查操作。分享给大家供大家参考,具体如下:1、创建db_shop数据库,如果该数据库不存在则
- 初步介绍 当然,我知道现在有成千上万个关于 用CSS处理圆角 的教程,但不管怎么说,我仍然想把这篇文章展示给您。也希望您会发现这篇文章会非常
- #!/usr/bin/env python#coding=utf-8import osfrom pyinotify import Watch
- Knockout是一个以数据模型(data model)为基础的能够帮助你创建富文本,响应显示和编辑用户界面的JavaScript类库。任何
- window.location="aaa.aspx" 上面的方法只能在当前页打开,如果要在新的页面打开,最简单的是用以下
- 使用FFmpeg命令拼接多个mp3格式的音频文件时报错抛出异常,使用命令格式如下:ffmpeg -i 1.mp3 -i 2.mp3 -fil
- :is 动态组件使用 v-bind:is=”组件名”,会自动去找匹配的组件名,如果没有,则不显示;<div id="app&
- 最近几年,jupyter在全球数据科学领域,已经成为不可或缺的重要工具。在jupyter中用python写程序,若import了自己写的外部
- 本文主要给大家介绍了关于Python中字典(dict)合并的四种方法,分享出来供大家参考学习,话不多说了,来一起看看详细的介绍:字典是Pyt
- 文本的排版依据语言的不同会有一些格式上的要求,比如简体中文中类似逗号、分号等标点符号不会出现在一行的开头,对于英文来讲就是一个完整单词不会在
- 一 什么是XML?python与json数据的交互详情 在这篇文章中我们介绍了json是一种独立于编程语言和平台的数据存储和交换方
- 前言Go 并没有提供删除切片元素专用的语法或函数,需要使用切片本身的特性来删除元素。删除切片指定元素一般有如下几种方法,本文以 []int
- 和其他语言不一样,传递参数的时候,python不允许程序员选择采用传值还是传引用。Python参数传递采用的肯定是“传对象引用”的方式。实际
- 刚开始学python,记录下问题。代码如下:#coding:utf-8import re,urllib2def getHTML(url):
- 图像素描特效图像素描特效主要经过以下几个步骤:调用cv.cvtColor()函数将彩色图像灰度化处理;通过cv.GaussianBlur()
- 前言Python语言提供了Socket套接字来实现网络通信。Python的应用程序通常通过Socket"套接字"向网络发