浅谈pandas用groupby后对层级索引levels的处理方法
作者:不论如何未来很美好 发布时间:2022-10-15 01:43:37
层及索引levels,刚开始学习pandas的时候没有太多的操作关于groupby,仅仅是简单的count、sum、size等等,没有更深入的利用groupby后的数据进行处理。近来数据处理的时候有遇到这类问题花了一点时间,所以这里记录以及复习一下:(以下皆是个人实践后的理解)
我使用一个实例来讲解下面的问题:一张数据表中有三列(动物物种、物种品种、品种价格),选出每个物种从大到小品种的前两种,最后只需要品种和价格这两列。
以上这张表是我们后面需要处理的数据表 (物种 品种 价格)
levels:层及索引 (创建pandas类型时可以预先定义;使用groupby后也会生成)
我们看看levels什么样(根据df1物种分类,再根据df2品种排序后 如下图)
图中可以看出,根据groupby分类后的cat、dog便是level,以及后面的一列原始位置索引也是level
好了现在简单了解levels,我们该如何对它进行处理,如何完成上面的实例呢?(可能你拿到这样的层级数据,不会操作,不知道如何提取其中的信息)
代码及讲解如下:
首先导入pandas、numpy库,以及创建原始数据:
import pandas as pd
import numpy as np
df = pd.DataFrame({'df1':['cat','cat','dog','cat','dog','dog'],'df2':[2,3,4,1,3,1],'df3':[100,200,100,300,200,200]})
原始数据最上面那张图
下面我们根据物种来分类,并且使用apply调用sort_df2函数对品种进行排序:
def sort_df2(data):
data = data.sort_values(by='df2',ascending=False) #df2:品种列 ascending:排序方式
return data
group = df.groupby(df['df1']).apply(sort_df2) #groupby以及apply的结合使用
处理后数据,上面第二张图
print(group.index) #看看groupby后的行索引什么样
groupby后如上图,有层级标签(这里两列),labels标签(分类,位置)
这里我们需要的是第一层级标签的第一列(也就是cat、dog)
levels = group.index.levels[0] #取出第一级标签:
下面将是两层循环,完成从中选出(物种前两个品种以及它的价格),很简单的操作:
values = []
for i in levels:
mid_group = group.loc[i] #选出i标签物种的所有品种
mid_group = mid_group.iloc[:2,:] #我们只取排序后的品种的前两种(要注意这里使用iloc,它与loc的区别)
cnt = len(mid_group) #为了防止循环长度错误,所以我们还是需要计算长度,因为如果真正数据不足2条还是不报错
for j in range(cnt): #现在在每个物种cat、dog中操作
value = mid_group.iloc[j,:] #我们选出该物种的第j条所有信息df1、df2、df3
value_pro = (value['df2'],value['df3']) #然后只取df2、df3,将它们放到元组中
values.append(value_pro)
所有的操作完成了,我们看看结果:
print(values) #此时在列表中保存了上面提取的元组信息,我们可以使用pandas再次转换它们为DataFrame,也可以做其它操作
我觉得这个例子比较形象,但是还是有逻辑欠缺的地方,不过不重要,看懂了上面的例子,基本上就能了解和处理层级数据了。当然这里的数据简单,只是为了更好的理解,真正的处理数据时,可能会出现更为复杂的层级结构,这时需要能够更灵活的处理,如果你有更好的理解和建议,可以回复。
-------更新(增加对两层索引的操作)--------
在原来的基础上增加一列df4表示动物的大小特征
df = pd.DataFrame({'df1':['cat','cat','dog','cat','dog','dog'],'df2':[2,3,4,1,3,1],'df3':[100,200,100,300,200,200],'df4':['大','中','小','巨大','小','中']})
此时根据df1、df4两列来分类,再对两层的层级索引操作:
df_group = df.groupby(['df1','df4']).size()
分类后得到的是对应两个特征的动物数量,现在来取得其中的值:
print(df_group.index)
h = df_group.loc[['cat','df4']]
print(h)
先查看数据的index信息,从中我们可以看到两层索引对应的levels有两中,然后我们根据loc测试选出cat类的df4这一列(也可以填大、中、巨大选出一列)
这样就得到了cat种类的信息,当然也可以选出dog种类,那么如何得出(cat,巨大,1)这样的一一对应的数据呢?
df1_name = df_group.index.levels[0] #获得第一层的分类cat、dog
for i in range(len(df1_name)): #循环遍历第一层
df_level = df_group.loc[[df1_name[i],'df4']] #这里是选出第一层的所有信息
df_level_ch = pd.DataFrame(df_level) #由于上面得到是Series我们需要将它转换为DataFrame才能更好的操作
for j in range(len(df_level_ch)): #开始对第二层进行遍历
a = df_level_ch.ix[j].name #由于是DataFrame所以可以取每一行的name值('cat','大')
b = df_level_ch.values[j][0] #获取对应数量,由于是嵌套列表,所以我们逐层获取
print(a,b)
基本上是筛选出来了,还是很简单的。这只是其中的一个例子,如果遇到需要其他的操作,可以根据这个例子来随机变换。
这个方法虽然可以筛选,但是个人觉得数据量过大,就不是很好,暂时没有更好的方法,如果那位朋友有其他操作,可以分享一下。
来源:https://blog.csdn.net/qq_36523839/article/details/80468063


猜你喜欢
- python中通过引用计数来回收垃圾对象,在某些环形数据结构(树,图……),存在对象间的循环引用,比如树的父节点引用子节点,子节点同时引用父
- 一. 输出函数print在python中,print()是可以直接使用的输出函数,将数据输出到控制台上。1. print函数的使用1.1 可
- 锁类型介绍MySQL 有三种锁的级别:页级、表级、行级1 表级锁:开销小,加锁快;不会出现死锁;锁定粒度大,发生锁冲突的概率最高, 并发度最
- 步骤如下:1.图片灰化;2.中值滤波 去噪3.求图片的光影(自动光学检测)4.除法去光影5.阈值操作6.实现了三种目标检测方法主要分两种连通
- 笔者最近在学习用OpenCV做人脸识别,用的是python语言,Anaconda里面自带的Spyder编辑器,但是按照人脸识别的教程安装好O
- alt的准确含义是,当照片不存在或者load错误时的提示。但同时img也同时支持alt和title,再有某些浏览器的错误解析,因此经常被误导
- 前言这周和大家分享如何用python识别图像里的条码。用到的库可以是zbar。希望西瓜6辛苦码的代码不要被盗了。(zxing的话,我一直没有
- 引言最近python语言大火,除了在科学计算领域python有用武之地之外,在游戏、后台等方面,python也大放异彩,本篇博文将按照正规的
- 由于图片水印的种类有很多,今天我们先讲最简单的一种。即上图中的①类水印,这种水印存在白色背景上的文档里,水印是灰色,需要保留的文字是黑色。这
- 今天彬Go将和大家一起讨论网页设计趋势中很重要的环节,那就是”勾引”用户的按钮。所谓”勾引”用户的按钮,其实对于Web设计师来说,就是如何设
- 在python类当中,经常会遇到@classmethod和@staticmethod这两个装饰器,那么到底它们的区别和作用是啥子呢?具体来看
- 本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下import requests as req import
- 看到类似__slots__这种形如__xxx__的变量或者函数名就要注意,这些在Python中是有特殊用途的。__slots__我们已经知道
- Django是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,即模型M,视图V和模版T。它最初是被开发来用于管理
- 先来看一张简单的文档树很明显树的顶层节点是NodeA节点,接下来可以通过指定的合适节点移动到树中的任何点,结合以下的代码你可以更好的了解这棵
- 1 map()函数的简介以及语法:map是python内置函数,会根据提供的函数对指定的序列做映射。map()函数的格式是:map(func
- 一、创建堆heapq有两种方式创建堆, 一种是使用一个空列表,然后使用heapq.heappush()函数把值加入堆中,另外一种就是使用he
- Python开发最牛逼的IDE——pycharm(其实其它的工具,例如eclipse也可以写,只不过比较麻烦,需要安装很多的插件,所以说py
- 如何做一个全面的探测器? 我们也可以做一个功能类似的探测器,见下:<Script lan
- 向量点乘 (dot) 和对应分量相乘 (multiply) :>>> aarray([1, 2, 3])>>&