SQL中去除重复数据的几种方法汇总(窗口函数对数据去重)
作者:Python数据开发 发布时间:2024-01-14 06:54:35
使用SQL对数据进行提取和分析时,我们经常会遇到数据重复的场景,需要我们对数据进行去重后分析。
以某电商公司的销售报表为例,常见的去重方法我们用到distinct 或者group by 语句, 今天介绍一种新的方法,利用窗口函数对数据去重。
【字段解释】
访客id:进入店铺浏览宝贝的客户
浏览时间:访客进入店铺浏览页面的日期
浏览时常:访客进入店铺浏览页面的时长
现在需要知道店铺里每个访客和对应的浏览日期(每个访客同一天浏览多次算做一次记录)
【解题思路】
方法1:distinct
SQL书写如下:
select distinct 访客id ,浏览时间
from 淘宝日销售数据表;
查询结果:
这里用distinct语句多字段进行去重的时候,需要特别注意2点:
1)distinct语法规定对单字段、多字段去重,必须放在第一个查询字段前。
2)如果对表中多列字段进行去重,去重的过程就是将多字段作为整体去重,比如上面的例子,我们将访客id和浏览时间为整体去去重,而不是对访客id单独去重后再对姓名单独去重,所以会出现相同的访客id对应不同的浏览时间。
方法2:group by
SQL书写如下:
select 访客id ,浏览时间
from 淘宝日销售数据表
group by 访客id ,浏览时间;
查询结果:
group by对访客id 和浏览时间进行分组,分组汇总后改变了表的行数,一行只有一个类别,这里使用group by后会将访客id 和浏览时间作为一个类别保留,重复的就会不显示。
方法3:窗口函数
使用窗口函数进行去重时,比distinct和group by稍微复杂些,窗口函数不会减少原表中的行数,而是对字段进行分组后排序。详细的窗口函数讲解
窗口函数的基本语法如下:
<窗口函数> over (partition by <用于分组的列名>
order by <用于排序的列名>)
根据题目要求得出每个访客和对应的浏览日期,我们对访客id ,浏览时间进行分组,对浏览时长(秒)进行排序。
SQL书写如下:
select 访客id ,浏览时间 ,row_number()over(partition by 访客id ,浏览时间
order by 浏览时长(秒)) as 排名
from 淘宝日销售数据表;
查询结果:
窗口函数查询按照每个客户和浏览日期分组,如果同一天有几次浏览,会根据点赞数排序,筛选排名为1,即可得出每个访客和对应的浏览日期。
SQL书写如下:
select 访客id ,浏览时间 ,row_number()over(partition by 访客id ,浏览时间
order by 浏览时长(秒)) as 排名
from 淘宝日销售数据表;
查询结果:
去除重复项的三种操作,你get了吗?欢迎评论区补充你的去重办法~
来源:https://blog.csdn.net/m0_59596937/article/details/130446253
猜你喜欢
- 这个东西算是我被这个shuffle坑了的一个总结吧!首先我得告诉你一件事,那就是pytorch中的tensor,如果直接使用random.s
- 1.php in_array方法说明PHP查找数组元素是否存在,一般会使用in_array方法。bool in_array ( mixed
- 导航是网页设计的重点,我们在设计一个网站的时候,常常从导航入手,不夸张的说,导航的设计甚至决定了整个网站的风格。这就需要我们平常多留心收集优
- 本文实例讲述了Python实现列表转换成字典数据结构的方法。分享给大家供大家参考,具体如下:'''[ {
- 这个操作在numpy数组上的操作感觉有点麻烦,但是也没办法。例如 a = [[1,2,3], [4,5,6], [7,8,9]]取 a 的
- 平台:windows 10pycharm 2016.2python 2.7.12问题始于我在pycharm下建了一个flask工程,然后导入
- 学习前言……又看了很久的SSD算法,今天讲解一下训练部分的代码。预测部分的代码可以参照https
- 性能首先,FCKEDITOR的性能是非常好的,用户只需很少的时间就可以载入FCKEDITOR所需文件.对于其他在线编辑器来说,这几乎是个很难
- 是不是有这么一个场景,对外提供一堆数据或者是要返回给用户一个结果。但是不想把内部的一些数据和逻辑暴露给对方。。。简单点来说,就是想以服务的方
- 前言《觉醒年代》被称为是继《走向共和》后的又一部历史神剧。自开播以来,豆瓣上的评分也是从最初的8.3分飙升到9.2分,并且在最近的上海电视节
- 网站用户为什么注册?这个问题在平时我们讨论的并不多。我们常常单纯的在设想如何简化注册流程,如何从细节的关怀入手避免用户注册时填写错误信息造成
- argparse模块用法一、 概念argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直
- 0 前言大概是三个月前,有个人找我说要我帮忙写几行代码,功能是把一个文件夹里面的所有文件拆分成 200 个文件一个文件夹,很简单的。我理解了
- 在flask更新到1.0之后的版本,官方推荐使用flask run的方式运行程序,可是作为开发,如果没有了pycharm的断点调试,这可太难
- 需求:Python检测URL状态,并追加保存200的URL代码一:#! /usr/bin/env python#coding=utf-8im
- python中有指定的代码进行输入操作,所以今天就由小编来为大家介绍python怎么实现键盘输入。第一首先打开电脑的python编辑工具。再
- 导入所需库%matplotlib inlineimport sympyimport numpy as npimport matplotlib
- 一、语法while 条件:执行代码while就是当的意思,它指当其后面的条件成立,就执行while下面的代码。例:写一个从0打印到10的程序
- WEB标准化之前的互联网是TABLE布局的天下,但随着互联网的高速发展,TABLE布局已经不能满足千变万化的页面所来来的更新压力和服务器压力
- 这篇文章主要介绍了python中删除某个元素的方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋