pandas数据聚合与分组运算的实现
作者:CarveStone 发布时间:2021-09-18 18:29:12
数据聚合与分组运算
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。
关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。
分组与聚合的原理
在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。
分组与聚合的过程大概分为以下三步:
通过groupby()方法将数据拆分成组
groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)
by:用于确定进行分组的依据。
axis:表示分组轴的方向。
sort:表示是否对分组标签进行排序,接收布尔值,默认为True。
按列名进行分组
# 通过列名进行分组
import pandas as pd
df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'],
"data":[2,4,6,8,10,1,14,16,19]
})
print(df)
'''
key data
0 c 2
1 b 4
2 c 6
3 a 8
4 b 10
5 b 1
6 a 14
7 c 16
8 a 19
'''
# 按照key列进行分组
print(df.groupby(by='key'))
'''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688>
'''
group_obj = df.groupby('key')
for i in group_obj:
print(i)
'''
('a', key data
3 a 8
6 a 14
8 a 19)
('b', key data
1 b 4
4 b 10
5 b 1)
('c', key data
0 c 2
2 c 6
7 c 16)
'''
按Series对象进行分组
如果Series对象与Pandas对象的索引长度不相同时,则只会将具有相同索引的部分数据进行分组
import numpy as np
import pandas as pd
df = pd.DataFrame({
'key1':['A','A','B','B','A'],
'key2':['one','two','one','two','one'],
'data1':['2','3','4','6','8'],
'data2':['3','5','6','3','7']
})
print(df)
'''
key1 key2 data1 data2
0 A one 2 3
1 A two 3 5
2 B one 4 6
3 B two 6 3
4 A one 8 7
'''
se = pd.Series(['a','b','c','a','b'])
print(se)
'''
0 a
1 b
2 c
3 a
4 b
dtype: object
'''
group_obj = df.groupby(se) # 定义series对象进行分组
for i in group_obj:
print(i)
'''
('a', key data
0 c 2
3 a 8)
('b', key data
1 b 4
4 b 10)
('c', key data
2 c 6)
'''
按字典进行分组
可以将这个字典传给groupby,来构造数组
# 通过字典进行分组
from pandas import DataFrame,Series
num_df = DataFrame({'a':[1,2,3,4,5],
'b':[6,7,8,9,10],
'c':[11,12,13,14,15],
'd':[5,4,3,2,1],
'e':[10,9,8,7,6]})
print(num_df)
'''
a b c d e
0 1 6 11 5 10
1 2 7 12 4 9
2 3 8 13 3 8
3 4 9 14 2 7
4 5 10 15 1 6
'''
# 定义分组规则
mapping = {'a':'第一组','b':'第二组','c':'第一组','d':'第三组','e':'第二组'}
by_column = num_df.groupby(mapping, axis=1)
for i in by_column:
print(i)
'''
('第一组', a c
0 1 11
1 2 12
2 3 13
3 4 14
4 5 15)
('第三组', d
0 5
1 4
2 3
3 2
4 1)
('第二组', b e
0 6 10
1 7 9
2 8 8
3 9 7
4 10 6)
'''
按函数进行分组
将函数作为分组键会更加灵活,任何一个被当做分组键的函数都会在各个索引值上被调用一次,返回的值会被用作分组名称。
使用内置函数len进行分组 groupby_obj = df.groupby(len)
比起使用字典或Series,使用Python函数是一种更原生的方法定义分组映射。任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。你可以计算一个字符串长度的数组,更简单的方法是传入len函数:
key_list = ['a', 'a', 'a', 'b', 'b']
num_df.groupby([len, key_list]).min()
来源:https://blog.csdn.net/weixin_44018458/article/details/128728844
猜你喜欢
- 认识pip众所周知,pip可以对python的第三方库进行安装、更新、卸载等操作,十分方便。pip的全称:package installer
- 在读文件时常常得到一些\n和引号之类的符号,可以使用字符串的成员函数strip()来去除。1.去除首尾不需要的字符a= '"
- 本文实例讲述了python实现从ftp服务器下载文件的方法。分享给大家供大家参考。具体实现方法如下:import ftplibftp = f
- 你知道SQL Server这么庞大的企业级数据库服务器产品是如何build出来的吗?这有些相关的数据:每个build 的大小在300GB左右
- 散点图,顾名思义是一些散乱的点构成的图。那么这些散乱的点有什么作用呢?散点图通过用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是
- Web网站可用性的关键指标是速度,更确切地说,是页面能以多快的速度出现在访问者的浏览器窗口里。影响速度的因素有很多种,包括Web服务器的速度
- 以下为测试例子。 1.首先创建两张临时表并录入测试数据: 代码如下:create table #temptest1 ( id i
- 是否看见大站的广告都是放在内容中间实现文字环绕的呢,一般普通小站广告只能放在内容开头或者结尾,也许大站的cms系统带这个功能吧,我们小站常用
- #!/usr/bin/env python#-*- coding: utf-8 -*-#==========================
- 有时候我不需要网络立即执行更改的数据。请问如何做到? 用下列办法即可延时执行:<%@import&
- 一、异常错误 a、语法错误错误一:if错误二:def text: &n
- 前言在使用自动化登录网站的时候,经常输入用户名和密码后会遇到验证码。今天介绍一款通用验证码识别 OCR库,对验证码识别彻底说拜拜,它的名字是
- 项目信号处理和提取部分用到了matlab,需要应用到工程中方便研究。用具有万能粘合剂之称的“Python”。具体方法如下:1.python中
- 在上次的爬虫中,抓取的数据主要用到的是第三方的Beautifulsoup库,然后对每一个具体的数据在网页中的selecter来找到它,每一个
- 如果直接使用base64_encode和base64_decode方法的话,生成的字符串可能不适用URL地址。下面的方法可以解决该问题:UR
- 1、将python程序打包成单文件(使用 -F 参数)后,尝试运行外部文件却提示找不到的问题当你将python程序打包成单文件(使用 -F
- 如题,在控制台运行python manage.py startapp sales 建立一个应用报错异常1.应用名不能包含下划线等字符 所以a
- 1:在终端下:mysql -V。 以下是代码片段:[shengting@login ~]$ mysql -Vmysql Ver 14.7 D
- 前言如果你认为深度学习非常的吃GPU,或者说非常的耗时间,训练一个模型要非常久,但是你如果了解了迁移学习那你的模型可能只需要几分钟,而且准确
- CSS网页布局开发中,会有很多小技巧,这里再扩展一下您所想要得到的知识,相信您会有很多收获!一、ul标签在Mozilla中默认是有paddi