pandas获取groupby分组里最大值所在的行方法
作者:Tobin's Blog 发布时间:2021-08-14 21:39:14
标签:pandas,行,最大值,groupby
pandas获取groupby分组里最大值所在的行方法
如下面这个DataFrame,按照Mt分组,取出Count最大的那行
import pandas as pd
df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})
df
Count | Mt | Sp | Value | |
---|---|---|---|---|
0 | 3 | s1 | a | 1 |
1 | 2 | s1 | b | 2 |
2 | 5 | s2 | c | 3 |
3 | 10 | s2 | d | 4 |
4 | 10 | s2 | e | 5 |
5 | 6 | s3 | f | 6 |
方法1:在分组中过滤出Count最大的行
df.groupby('Mt').apply(lambda t: t[t.Count==t.Count.max()])
Count | Mt | Sp | Value | ||
---|---|---|---|---|---|
Mt | |||||
s1 | 0 | 3 | s1 | a | 1 |
s2 | 3 | 10 | s2 | d | 4 |
4 | 10 | s2 | e | 5 | |
s3 | 5 | 6 | s3 | f | 6 |
方法2:用transform获取原dataframe的index,然后过滤出需要的行
print df.groupby(['Mt'])['Count'].agg(max)
idx=df.groupby(['Mt'])['Count'].transform(max)
print idx
idx1 = idx == df['Count']
print idx1
df[idx1]
Mt
s1 3
s2 10
s3 6
Name: Count, dtype: int64
0 3
1 3
2 10
3 10
4 10
5 6
dtype: int64
0 True
1 False
2 False
3 True
4 True
5 True
dtype: bool
Count | Mt | Sp | Value | |
---|---|---|---|---|
0 | 3 | s1 | a | 1 |
3 | 10 | s2 | d | 4 |
4 | 10 | s2 | e | 5 |
5 | 6 | s3 | f | 6 |
上面的方法都有个问题是3、4行的值都是最大值,这样返回了多行,如果只要返回一行呢?
方法3:idmax(旧版本pandas是argmax)
idx = df.groupby('Mt')['Count'].idxmax()
print idx
df.iloc[idx]
Mt
s1 0
s2 3
s3 5
Name: Count, dtype: int64
Count | Mt | Sp | Value | |
---|---|---|---|---|
0 | 3 | s1 | a | 1 |
3 | 10 | s2 | d | 4 |
5 | 6 | s3 | f | 6 |
df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]
Count | Mt | Sp | Value | |
---|---|---|---|---|
0 | 3 | s1 | a | 1 |
3 | 10 | s2 | d | 4 |
5 | 6 | s3 | f | 6 |
def using_apply(df):
return (df.groupby('Mt').apply(lambda subf: subf['Value'][subf['Count'].idxmax()]))
def using_idxmax_loc(df):
idx = df.groupby('Mt')['Count'].idxmax()
return df.loc[idx, ['Mt', 'Value']]
print using_apply(df)
using_idxmax_loc(df)
Mt
s1 1
s2 4
s3 6
dtype: int64
Mt | Value | |
---|---|---|
0 | s1 | 1 |
3 | s2 | 4 |
5 | s3 | 6 |
方法4:先排好序,然后每组取第一个
df.sort('Count', ascending=False).groupby('Mt', as_index=False).first()
Mt | Count | Sp | Value | |
---|---|---|---|---|
0 | s1 | 3 | a | 1 |
1 | s2 | 10 | d | 4 |
2 | s3 | 6 | f | 6 |
那问题又来了,如果不是要取出最大值所在的行,比如要中间值所在的那行呢?
思路还是类似,可能具体写法上要做一些修改,比如方法1和2要修改max算法,方法3要自己实现一个返回index的方法。 不管怎样,groupby之后,每个分组都是一个dataframe。
来源:http://www.guoguoday.com/post/pandas%E8%8E%B7%E5%8F%96groupby%E5%88%86%E7%BB%84%E9%87%8C%E6%9C%80%E5%A4%A7%E5%80%BC%E6%89%80%E5%9C%A8%E7%9A%84%E8%A1%8C/


猜你喜欢
- 最简单的方法:取整后判断是否和原值相等!javascript的取整函数是:parseIntif(parseInt(value)==value
- Django框架中的URL分发采用正则表达式匹配来进行,以下是正则表达式的基本规则:官方演示代码:from django.conf.urls
- 适配器模式Adapter Pattern是什么适配器模式是一种结构型模式,它可以将一个类的接口转换成客户端所期望的接口,从而使原本不兼容的类
- 一.GO程序目录结构在GOPATH目录下的结构--bin(存放编译后生成的可执行文)|----hello.exe(可执行文件)--pkg(存
- 今天有一位同学给了我一个excel文件,要求读取某些行,某些列,然后我试着做了一个demo,这里分享出来,希望能帮到大家:首先安装xlrd:
- 问题描述在深度学习相关任务的训练时,需要在训练的每个 epoch 记录当前 epoch 的准确率(如下图所示),那么在 python 中要怎
- 概述从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类
- 1. 多曲线1.1 使用pyplot方式import numpy as npimport matplotlib.pyplot as pltx
- 什么是双端队列双端队列是与队列类似的有序集合。它有一前、一后两端,元素在其中保持自己的位置。与队列不同的是,双端队列对在哪一端添加和移除元素
- pandas读取、写入csv数据非常方便,但是有时希望通过excel画个简单的图表看一下数据质量、变化趋势并保存,这时候csv格式的数据就略
- 如下所示:import numpy as npimport pandas as pdfrom pandas import Series,Da
- append() 方法向列表的尾部添加一个新的元素。只接受一个参数。>>> num = [1,2]>>>
- mysq 正确清理binlog日志前言:MySQL中的binlog日志记录了数据库中数据的变动,便于对数据的基于时间点和基于位置的恢复,但是
- 1.算法:(设查找的数组期间为array[low, high])(1)确定该期间的中间位置K(2)将查找的值T与array[k]比较。若相等
- 本文实例讲述了Python实现的ftp服务器功能。分享给大家供大家参考,具体如下:python 具备强大的网络编程功能,而且代码简介,用简单
- 本文实例讲述了wxpython中Textctrl回车事件无效的解决方法。分享给大家供大家参考,具体如下:今天使用wxptyhon的Textc
- requests模块是一个用于访问网络的模块,其实类似的模块还有很多,不在一一在这里解释。这么多的相似的模块为什么都说只有这个好用呢,因为他
- 爬取过程:你好,李焕英 短评的URL:https://movie.douban.com/subject/34841067/comments?
- 下面给大家提供几个函数参考。实例一:<?php function deletedir($dir){  
- 1.代码编辑 字体大小设置进入 File—》Settings—》Editor—》Colors & Fonts—》Font中。首先要点