Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)
作者:BlankSeed 发布时间:2022-10-10 19:11:55
标签:Pandas,map,apply,transform,agg
1.单列运算
在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:
df['col2'] = df['col1'].map(lambda x: x**2)
其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:
define square(x):
return (x ** 2)
df['col2'] = df['col1'].map(square)
2.多列运算
apply()会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。
要对DataFrame的多个列同时进行运算,可以使用apply,例如col3 = col1 + 2 * col2:
df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
其中x带表当前行,可以通过下标进行索引。
示例2
In [44]: f = lambda x : x.max()-x.min()
In [45]: df.apply(f)
Out[45]:
data1 5.042275
data2 1.967290
dtype: float64
In [46]: df.apply(f,axis=1)
Out[46]:
0 2.810074
1 1.009774
2 0.537183
3 0.813714
4 1.750022
dtype: float64
applymap()
用DataFrame的applymap方法,可以将函数应用到元素级的数据上。
In [47]: f = lambda x : x+1
In [48]: df.applymap(f)
Out[48]:
data1 data2
0 -1.332263 1.477812
1 0.284755 1.294528
2 0.066644 0.603827
3 1.757402 2.571117
4 3.710012 1.959990
Series也有一个元素级函数应用的方法map
In [49]: df['data1']
Out[49]:
0 -2.332263
1 -0.715245
2 -0.933356
3 0.757402
4 2.710012
Name: data1, dtype: float64
In [50]: df['data1'].map(f)
Out[50]:
0 -1.332263
1 0.284755
2 0.066644
3 1.757402
4 3.710012
Name: data1, dtype: float64
3.分组运算
可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作:
df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())
在transform函数中x.sum()与x.count()与SQL类似,计算的是当前group中的和与数量,还可以将transform的结果作为一个一个映射来使用, 例如:
sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count())
df['col1'].map(sumcount)
对col1进行一个map,得到对应的col2的运算值。
4.聚合函数
结合groupby与agg实现SQL中的分组聚合运算操作,需要使用相应的聚合函数:
df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})
上述代码生成了col1_mean, col1_sum与col2_count列。
示例2
In [52]: df.agg(['mean','sum'])
Out[52]:
data1 data2
mean -0.102690 0.581455
sum -0.513449 2.907274
函数 | 说明 |
---|---|
count | 分组中非Nan值的数量 |
sum | 非Nan值的和 |
mean | 非Nan值的平均值 |
median | 非Nan值的算术中间数 |
std,var | 标准差、方差 |
min,max | 非Nan值的最小值和最大值 |
prob | 非Nan值的积 |
first,last | 第一个和最后一个非Nan值 |
来源:https://blog.csdn.net/zwhooo/article/details/79696558
0
投稿
猜你喜欢
- 一.作用和使用场景在mysql入库时,不能出现两条数据主键一致的情况,因为在两条数据的主键一致的情况下,mysql就会判定为待插入数据在数据
- 前言 绝大多数的Oracle数据库性能问题都是由于数据库设计不合理造成的,只有少部分问题根植于Database Buffer、Share P
- 时钟实现实现这个时钟时间需要解决以下三个问题:获得当前时间,并格式化如何可以在页面中显示时间让时间动起来1、获得当前时间,并格式化要获得当前
- 一、软件包a) freetds-stable.gzb) php-5.2.12.tar.gz二、安装步骤a) tar zxvf freetds
- 前言关于mockjs,官网描述的是1.前后端分离2.不需要修改既有代码,就可以拦截 Ajax 请求,返回模拟的响应数据。3.数据类型丰富4.
- 本文实例讲述了Python实现两个list求交集,并集,差集的方法。分享给大家供大家参考,具体如下:在python中,数组可以用list来表
- tensorflow中可以通过配置环境变量 'TF_CPP_MIN_LOG_LEVEL' 的值,控制tensorflow是否
- 花了些工夫将碎片网部署到了SAE,中途遇到各类问题。感觉SAE看上去很美,实际上却并不是太成熟(至少python版如此)。下面记录下我遇到的
- 本文介绍了使用Application来统计访问网站的在线人数的方法,并介绍了使用Application时应该注意的事项。首先讲明白,用ASP
- 前言最近做了一个爬取妹子套图的小功能,小伙伴们似乎很有兴趣,为了还特意组建了一个Python兴趣学习小组,来一起学习。十个python九个爬
- 在整个安装的过程中也遇到了很多的坑,故此做个记录,争取下次不再犯!我的整个基本配置如下:电脑环境如下:win10(64位)+CPU:E5-2
- Web Standards Solutions The Markup and Style Handbook - Chapter 1 清单首发
- 为了便于操作基本类型值,ECMAScript 提供了 3 个特殊的引用类型:Boolean、Number和 String。这些类型与其他引用
- 代码之余,将代码过程重要的一些代码段备份一下,如下的代码内容是关于Python从ftp服务器下载文件的的代码,希望能对小伙伴有用途。#cod
- 一 描述720. 词典中最长的单词 - 力扣(LeetCode) (leetcode-cn.com)给出一个字符串数组 words
- 本文实例为大家分享了Python OpenCV实现视频追踪的具体代码,供大家参考,具体内容如下1. MeanShift假设有一堆点集和一个圆
- 这两天项目里出了一个问题,LIMIT使用后报错。 需求是这样的,我有3张表,infor信息表,mconfig物料配置表,maaply物料申请
- bytes 和 bytearraybytes 和 bytearray 都是二进制世界的成员,用二进制的方式去理解才能看清他的本质。理解byt
- ThinkPHP提供的视图查询应用功能十分强大,用户利用视图查询功能可以将多个数据表的字段内容按需要进行指定和筛选,组织成一个基于这些数据表
- MySQL 8.0.28引入新功能MySQL 8.0.28开始,新增一个特性,支持监控统计并限制各个连接(会话)的内存消耗,避免大量用户连接