Python自定义聚合函数merge与transform区别详解
作者:懒惰的星期六 发布时间:2022-09-14 11:45:30
标签:Python,聚合,函数,merge,transform
1.自定义聚合函数,结合agg使用
2. 同时使用多个聚合函数
3. 指定某一列使用某些聚合函数
4.merge与transform使用
import pandas as pd
import numpy as np
np.random.seed(1)
dict_data = {
'k1': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd'],
'k2': ['A', 'B', 'C', 'D', 'A', 'B', 'C', 'D'],
'data1': np.random.randint(1,10,8),
'data2': np.random.randint(1,10,8)
}
df = pd.DataFrame(dict_data)
print('df=\n',df)
df2 = df.groupby('k1').sum()
# df2 = df.sum()
print("df.groupby('k1').sum()\n",df2)
# 使用聚合函数
def cus(df):
return df.max()-df.min()
# 默认列索引为列名。元组第0个元素‘Max',‘mu_cus'为自定义列名称,第一个元素为聚合函数名称
print("使用聚合函数1\n",df.groupby('k1').agg(['sum',('Max','max'),('mu_cus',cus)]))
# 制定某一列使用某个聚合函数, 元组不能用来重命名列名了,元组里面的函数,表示这一列将会执行的聚合函数
print("使用聚合函数2\n",df.groupby('k1').agg({'data1':('min', 'max'),'data2':'min'}))
df3 = df.groupby('k1').sum().add_prefix('sum_')
print('df3=\n',df3)
# 如果不使用add_prefix('sum_'),那么在merge时候data1余data2列名相同,会被自动重命名
print('merge=\n',pd.merge(df,df3,on='k1'))
transform_df = df.groupby('k1').transform(np.sum).add_prefix('sum_')
print(transform_df)
df[transform_df.columns]=transform_df # transform_df.columns Index(['sum_k2', 'sum_data1', 'sum_data2'], dtype='object')
# df[transform_df.columns.values]=transform_df #等价,# transform_df.columns.values ['sum_k2', 'sum_data1', 'sum_data2']
print(df) exit()
结果
df=
k1 k2 data1 data2
0 a A 6 3
1 b B 9 5
2 c C 6 6
3 d D 1 3
4 a A 1 5
5 b B 2 3
6 c C 8 5
7 d D 7 8
df.groupby('k1').sum()
data1 data2
k1
a 7 8
b 11 8
c 14 11
d 8 11
使用聚合函数1
data1 data2
sum Max mu_cus sum Max mu_cus
k1
a 7 6 5 8 5 2
b 11 9 7 8 5 2
c 14 8 2 11 6 1
d 8 7 6 11 8 5
使用聚合函数2
data1 data2
min max min
k1
a 1 6 3
b 2 9 3
c 6 8 5
d 1 7 3
df3=
sum_data1 sum_data2
k1
a 7 8
b 11 8
c 14 11
d 8 11
merge=
k1 k2 data1 data2 sum_data1 sum_data2
0 a A 6 3 7 8
1 a A 1 5 7 8
2 b B 9 5 11 8
3 b B 2 3 11 8
4 c C 6 6 14 11
5 c C 8 5 14 11
6 d D 1 3 8 11
7 d D 7 8 8 11
sum_k2 sum_data1 sum_data2
0 AA 7 8
1 BB 11 8
2 CC 14 11
3 DD 8 11
4 AA 7 8
5 BB 11 8
6 CC 14 11
7 DD 8 11
k1 k2 data1 data2 sum_k2 sum_data1 sum_data2
0 a A 6 3 AA 7 8
1 b B 9 5 BB 11 8
2 c C 6 6 CC 14 11
3 d D 1 3 DD 8 11
4 a A 1 5 AA 7 8
5 b B 2 3 BB 11 8
6 c C 8 5 CC 14 11
7 d D 7 8 DD 8 11
Process finished with exit code 0
来源:https://www.cnblogs.com/sunupo/p/12941713.html


猜你喜欢
- 删除文件os.remove( filename ) # filename: "要删
- Memento备忘录模式 备忘录模式一个最好想象的例子:undo! 它对对象的一个状态进行了'快照', 在你需要的时候恢复原
- 网上找了半天都找不到好用的PyQt5无边框窗口的实现,借鉴部分前辈的窗口拖放代码,自己实现了一下无边框窗口,问题可能还有一点,慢慢改吧 先做
- 本文记录下自己使用Python实现一个简易的ORM模型使用到的知识1、元类2、描述器元类对于元类,我的理解其实也便较浅,大概是这个意思所有的
- 前言Pytorch、Tensoflow等许多深度学习框架集成了大量常见的网络层,为我们搭建神经网络提供了诸多便利。但在实际工作中,因为项目要
- MySQL select into临时表最近在编写sql语句时,遇到两次将数据放temp表,然后将两次的temp表进行inner join,
- 1. MySQL如何使用索引索引用于快速查找具有特定列值的行。如果没有索引,MySQL必须从第一行开始,然后遍历整个表以找到相关
- 子查询-嵌套查询子查询是指一个查询语句嵌套在另一个语句内部的查询原始查询方法SELECT last_name,salaryFROM empl
- 方法一、线程池执行的循环代码为自己写的情况定义一个全局变量,默认为T,当QT界面关闭后,将该变量值改为F。线程执行的循环代码内增加一个判断方
- 由于客户提供的是excel文件,在使用时期望使用csv文件格式,且对某些字段内容需要做一些处理,如从某个字段中固定的几位抽取出来,独立作为一
- 说起元宵节,各位有没有觉得这是咱们中国人最浪漫的节日呢?国人向来拘谨古板,一年到头都是小心谨慎地过日子,唯有元宵节这天可以纵情豪放一把。东风
- filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为Tru
- 一、背景分析对想要在视觉化环境下制作复杂网页的专业网页制作者来说,Dreamweaver已经渐渐在网页编辑工具中展露头角,成为专业人士编写网
- MySQL8服务无法正常启动的解决(1053错误)第一种方法初始化后在Mysql的根目录会生成 data 数据库文件夹,如果启动服务失败,很
- 逻辑回归模型 逻辑回归是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成
- 语法糖(Syntactic sugar),也译为糖衣语法,是由英国计算机科学家彼得·约翰·兰达(Peter J. Landin)发明的一个术
- 本文实例为大家分享了Vue编写时钟插件的具体代码,供大家参考,具体内容如下效果图代码奉上:<template> &n
- Pytorch中,变量参数,用numel得到参数数目,累加def get_parameter_number(net): tota
- 一: 基本使用:1:环境的安装:pip install flask-sqlalchemypip install pymysql2:组件初始化
- TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine