python中pandas对多列进行分组统计的实现
作者:光于前裕于后 发布时间:2022-06-25 03:50:03
标签:pandas,多列,分组统计
使用groupby([ ]).size()统计的结果,值相同的字段值会不显示
如上图所示,第一个空着的行是982499 7 3388 1,因为此行与前面一行的这两个字段值是一样的,所以不显示。第二个空着的行是390192 22 4278 1,因为此行与前面一行的第一个字段值是一样的,所以不显示。这样的展示方式更直观,但对于刚用的人,可能会让其以为是缺失值。
如果还不明白可以看下面的全部数据及操作。
import pandas as pd
res6 = pd.read_csv('test.csv')
res6.shape
(12, 3)
res6.columns
Index(['user_id', 'cate', 'shop_id'], dtype='object')
res6.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
user_id 12 non-null int64
cate 12 non-null int64
shop_id 12 non-null int64
dtypes: int64(3)
memory usage: 368.0 bytes
res6.describe()
user_id | cate | shop_id | |
---|---|---|---|
count | 1.200000e+01 | 12.000000 | 12.000000 |
mean | 6.468688e+05 | 10.666667 | 3594.000000 |
std | 3.988181e+05 | 6.665151 | 373.271775 |
min | 2.421410e+05 | 7.000000 | 3388.000000 |
25% | 3.901920e+05 | 7.000000 | 3388.000000 |
50% | 4.938730e+05 | 7.000000 | 3388.000000 |
75% | 9.824990e+05 | 10.250000 | 3586.250000 |
max | 1.558165e+06 | 23.000000 | 4278.000000 |
res6
user_id | cate | shop_id | |
---|---|---|---|
0 | 390192 | 20 | 4178 |
1 | 390192 | 23 | 4179 |
2 | 390192 | 22 | 4278 |
3 | 1021819 | 7 | 3388 |
4 | 242141 | 7 | 3388 |
5 | 283284 | 7 | 3388 |
6 | 1558165 | 7 | 3388 |
7 | 533696 | 7 | 3388 |
8 | 982499 | 7 | 3388 |
9 | 493873 | 7 | 3388 |
10 | 493873 | 7 | 3388 |
11 | 982499 | 7 | 3389 |
res6['user_id'].value_counts()
390192 3
982499 2
493873 2
242141 1
1021819 1
533696 1
1558165 1
283284 1
Name: user_id, dtype: int64
res6.groupby(['user_id']).size().sort_values(ascending=False)
user_id
390192 3
982499 2
493873 2
1558165 1
1021819 1
533696 1
283284 1
242141 1
dtype: int64
res6.groupby(['user_id', 'cate']).size().sort_values(ascending=False)
user_id cate
982499 7 2
493873 7 2
1558165 7 1
1021819 7 1
533696 7 1
390192 23 1
22 1
20 1
283284 7 1
242141 7 1
dtype: int64
res6_test = res6.groupby(['user_id', 'cate', 'shop_id']).size().sort_values(ascending=False)
res6_test
user_id cate shop_id
493873 7 3388 2
1558165 7 3388 1
1021819 7 3388 1
982499 7 3389 1
3388 1
533696 7 3388 1
390192 23 4179 1
22 4278 1
20 4178 1
283284 7 3388 1
242141 7 3388 1
dtype: int64
来源:https://drguo.blog.csdn.net/article/details/89670842
0
投稿
猜你喜欢
- JSP 注释的详解及简单实例一 三种格式二 举例 <body> <h1>大家好</h1
- <table> <tr> &nb
- ADO对象: Connection Command Recordset Record Stream ASP支持的对象很多,可以自己编写COM
- 前言本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义、组成部分、爬取流程,并讲解示例代码。基础爬虫的定义:定向抓取互联网内容(
- 本文实例讲述了Python大数据之从网页上爬取数据的方法。分享给大家供大家参考,具体如下:myspider.py :#!/usr
- 前言最近发现了一个可以把照片美化的项目,自己玩了玩,挺有意思的,分享一下。Github地址:DPED项目地址下面来看看项目怎么玩?先放一些项
- 1. 原理利用 PIL 库来获取图片并修改大小,利用灰度值转换公式把每一个像素的 RGB 值转为灰度值gray = int(0.2126*r
- 一、引入方式from itertools import cycle二、使用方法我们先来看看它的源码cycle它接收一个可迭代对象,可以将一个
- 我正在参加天池上的一个竞赛,刚开始用的是DenseNet121但是效果没有达到预期,因此开始尝试使用模型融合,将Desenet和Xcepti
- 统计某一列或某一行的缺失值数目1.使用isnull()import pandas as pd# 首先导入数据df = pd.read_csv
- 1、ul标签在Mozilla中默认是有padding值的,而在IE中只有margin有值。 2、同一个的class选择符可以在一个
- 0. 前言无论在工作中,还是学习中,都会出现这样子的需求,对某张表进行了排序(按时间排序也好,其他字段排序也罢),然后获取前x行的数据,由于
- 使用 pdb 进行调试pdb 是 python 自带的一个包,为 python 程序提供了一种交互的源代码调试功能,主要特性包括设置断点、单
- 本人是一名python初学者,刚刚看到一道有趣的python问题,“用python如何在编译器中打印出菱形图案?”因此决定尝试一下,代码不多
- 1、问题描述某厂生产甲乙两种饮料,每百箱甲饮料需用原料6千克、工人10名,获利10万元;每百箱乙饮料需用原料5千克、工人20名,获利9万元。
- 本文实例讲述了python实现合并两个数组的方法。分享给大家供大家参考。具体如下:python合并两个数组,将两个数组连接成一个数组,例如,
- 视频观看视频函数的参数定义函数时,我们把参数的名字和位置确定下来,函数的接口定义就完成了。参数在函数名后的括号内指定。您可以根据需要添加任意
- 使用Python读取解析xmind文件,一键统计测试用例数量。问题:做测试的朋友们经常会用到xmind这个工具来梳理测试点或写测试用例,但是
- 目录时间戳相减装饰器timeit模块重复调用 timeit()cProfile性能分析工具时间戳相减在代码执行前后各记录一个时间点,两个时间
- 安装 php首先安装 php 的压缩包,目前下载地址解压文件到这个路径下:D:\Program Files\php-7.3.5(自行选择合适