pandas数据预处理之dataframe的groupby操作方法
作者:STHSF 发布时间:2022-07-07 19:27:56
标签:pandas,dataframe,groupby
在数据预处理过程中可能会遇到这样的问题,如下图:数据中某一个key有多组数据,如何分别对每个key进行相同的运算?
dataframe里面给出了一个group by的一个操作,对于”group by”操作,我们通常是指以下一个或多个操作步骤:
l (Splitting)按照一些规则将数据分为不同的组;
l (Applying)对于每组数据分别执行一个函数;
l (Combining)将结果组合到一个数据结构中;
使用dataframe实现groupby的用法:
# -*- coding: UTF-8 -*-
import pandas as pd
df = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])
print df
# 按col1分组并按col2求和
print df.groupby(by='col1').agg({'col2':sum}).reset_index()
# 按col1分组并按col2求最值
print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()
# 按col1 ,col3分组并按col2求和
print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()
输出结果为:
col1 col2 col3
0 a 1 aa
1 b 2 bb
2 c 3 cc
3 a 44 aa
col1 col2
0 a 45
1 b 2
2 c 3
col1 col2
max min
0 a 44 1
1 b 2 2
2 c 3 3
col1 col3 col2
0 a aa 45
1 b bb 2
2 c cc 3
注意点:
代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是:
col2
col1
a 45
b 2
c 3
col2
max min
col1
a 44 1
b 2 2
c 3 3
col2
col1 col3
a aa 45
b bb 2
c cc 3
上下两个结果还是有区别的,但是具体区别暂时不太清楚,不过下面的一种输出结果是不能跟使用df['col1']来提取第一列的。至于是什么原因暂时还不清楚,如果您对pandas比较理解或者知道原因,欢迎在评论中留言。
来源:https://blog.csdn.net/u013041398/article/details/71118560


猜你喜欢
- 公司里很多部门,每个部门可以发多条信息,但每条信息只对应一个部门部门类:class Dep(models.Model): nam
- 本文实例讲述了Python实现读写INI配置文件的方法。分享给大家供大家参考,具体如下:# -*- coding: utf-8 -*-imp
- 通常我们会在一些javascript的书籍上看到,使用Javascript保留字作为标识符(变量名、函数名、循环标记等)时,会引起程序报错!
- Python中的最大整数Python中可以通过sys模块来得到int的最大值. python2中使用的方法是import sysmax =
- 前言命令模式,也称为动作或者事务模式,很多教材会用饭馆来举例。作为顾客的我们是命令的下达者,服务员是这个命令的接收者,菜单是这个实际的命令,
- 简介枚举是与多个唯一常量绑定的一组符号因为枚举表示的是常量,建议枚举成员名用大写IntEnum 便于进行系统交互初试from enum im
- Mybatisd对sql表的一对多查询select * fromprojectrecord prleft join projects poo
- 前言:在前面一些文章中,经常能看到介绍某某参数的作用,可能有些小伙伴仍搞不清楚 MySQL 参数是啥。本篇文章我们来聊聊 MySQL 参数,
- df.sort_index()实现按索引排序,默认以从小到大的升序方式排列,如希望按降序排列,传入ascending = Falseimpo
- PyQt5安装之前安装过anaconda,里面是含有pyqt的,在环境里搜索可以看到,但是针对实际开发,并没有全部的qt5工具,所以需要再次
- 本文实例讲述了Python使用win32com实现的模拟浏览器功能。分享给大家供大家参考,具体如下:# -*- coding:UTF-8 -
- 一、检测通信查看master(centos7)和slave(win10)的ip地址,并检测是否可以相互通信到这里我们知道,master的ip
- <?php /* *@author 夜无眠
- 1.字典文本特征提取 DictVectorizer()1.1 one-hot编码创建一个字典,观察如下数据形式的变化:import pand
- python3下载抖音视频的代码如下所示:# -*- coding:utf-8 -*-from contextlib import clos
- python np.dot(a,b)运算规则解析首先我们知道dot运算时不满 * 换律的,np.dot(a, b)与np.dot(b, a)是
- Python2 和 Python3 是不兼容的,如果碰到无法升级到 Python2 代码,或者同事中有坚守 Python2 阵营的情况,就要
- 本文介绍了C#连接Oracle数据库的过程。通过instant client和ODP.net中的Oracle.DataAccess.dll,
- 这篇文章主要介绍了python return逻辑判断表达式实现解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- difflib模块提供的类和方法用来进行序列的差异化比较,它能够比对文件并生成差异结果文本或者html格式的差异化比较页面,如果需要比较目录