Python数据分析中Groupby用法之通过字典或Series进行分组的实例
作者:nyist 发布时间:2023-03-08 12:56:01
在数据分析中有时候需要自己定义分组规则 这里简单介绍一下用一个字典实现分组
people=DataFrame(
np.random.randn(5,5),
columns=['a','b','c','d','e'],
index=['Joe','Steve','Wes','Jim','Travis']
)
mapping={'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'}
by_column=people.groupby(mapping,axis=1)#列方向上进行分组
这里不知道python底层是怎么运行的,最好把运行的结果打印出来看一下
for i in by_column:
print (i)
遍历的结果:
('blue', c d
Joe 0.218189 -0.228336
Steve 1.677264 0.630303
Wes 0.315320 -0.250787
Jim 3.343462 0.483021
Travis 0.854553 -0.760884)
('red', a b e
Joe 0.218164 0.823654 -1.425720
Steve 1.191175 -0.327735 1.926470
Wes -1.418855 0.497466 0.110105
Jim -1.157157 0.817122 0.749023
Travis -0.440583 -0.907922 1.374294)
从结果可以看到,把a b e分给了red, c d分给了blue
a b e--->red
c d --->blue
接下来再来执行 people.groupby(mapping,axis=1).mean()
blue red
Joe 0.241336 -0.182099
Steve 0.459773 -0.448336
Wes 0.205278 0.605721
Jim -0.094838 1.254174
Travis 0.354140 0.142075
从结果看到在列方向group分组 执行聚合函数mean()后列索引就只有 blue和red了。
整个过程可以这么理解 在列方向上进行分组 a b e为一组为red,c d 为一组为blue。最后以red blue作为新DataFraem的列索引
同样Series也有同样的功能,它可以被看作一个固定大小的映射。对于上面的那个例子,如果用series作为分组键,则pandas会检查Series以确保其索引分组轴是对齐的:
ser=Series(mapping)
a red
b red
c blue
d blue
e red
f orange
by_ser_group=people.groupby(ser,axis=1).mean()
blue red
Joe 0.241336 -0.182099
Steve 0.459773 -0.448336
Wes 0.205278 0.605721
Jim -0.094838 1.254174
Travis 0.354140 0.142075
从结果可以看到,通过字典进行分组和通过Series进行分组结果是相同的。也就是说他们执行的原理是相同的,都是把索引(对series来说)或字典的key与Dataframe的索引进行匹配,
字典中value或series中values值相同的会被分到一个组中,最后根据每组进行在聚合。
groupby的用法很多,之后有时间我会慢慢更新博客。如果有那些地方有错欢迎大家指出,一块学习,共同进步。
来源:http://www.cnblogs.com/nyist-/archive/2017/12/08/8003764.html
猜你喜欢
- Python中的布尔类型Python中的布尔类型(bool)只有两个取值,分别是True和False。bool类型通常用于逻辑判断和条件控制
- 很早前就遇到这个空值的属性,它既出现在 html 文档中,也出现在 xml 中,一直都回避,放之任之,反正也不影响文档的正确性。隐隐约约过了
- 本文实例讲述了PHP共享内存使用与信号控制。分享给大家供大家参考,具体如下:共享内存共享内存的使用主要是为了能够在同一台机器不同的进程中共享
- 1. 需求概述最近接到一份PDF资料需要打印,奈何页面是如图所示的A3格式的,奈何目前条件只支持打印A4。我想要把每页的一个大页面裁成两个小
- 这篇文章主要介绍了python列表推导式入门学习解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友
- <%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%>
- 第一节:WAP的潜能 这些日子,我们常听到WAP技术,一种手机上网的技术。从技术上讲,移动电话不可能和PC来竞争,移动电话的屏幕只能容下很少
- str_replace — 子字符串替换 [str_replace]mixed str_replace ( mixed
- 1.将以下代码加入到HEML的<body></body>之间<SCRIPT language=jav
- 最近要做一个图像生成的课题,在网上找了一个混合的数据集。这个数据集中一共有360个文件夹,然后文件夹中有6-9张不等的照片,我的目标就是编写
- 提叻一个代码段,要人帮助解释一下。代码如下:declare type t_indexby is ta
- 首先介绍下比较简单但必不可少且实用的知识,可以当手册查询,适合像我一样的新手看。PHP常用库函数介绍一、PHP字符串操作常用函数1.确定字符
- 简介模板方法模式,是行为型的设计模式。定义一个操作中的算法的骨架,而将一些步骤延迟到子类当中,使得子类可以不改变一个算法的结构即可重新定义该
- 在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载
- 本文实例为大家分享了python实现用户名密码校验的具体代码,供大家参考,具体内容如下需要实现功能输入用户名密码 ;认证成功后显示 欢迎信息
- 如下所示:f = open('./val.txt')lines = f.readlines() #整行读取f.close()
- 1 前言Python开发网络爬虫获取网页数据的基本流程为:发起请求通过URL向服务器发起request请求,请求可以包含额外的header信
- 在网页设计中有一些通用的交互设计模式。网站导航各种各样的通用和大家熟知的设计模式,可以用来作为为网站创建有效地信息架构的基础。这篇指南涵盖了
- 一直以来都有这样一个困惑,那就是打开页面间的链接时是在原窗口转换还在新窗口打开呢?如果是在原窗口里转换页面的话,那我还想使用原页面的信息呢?
- 近日,朋友写一个关于成绩管理的系统,其中遇到一个小问题。如果按照SQLSERVER的ORDER 排序时,比如遇到两个100分,结果必然是名次