Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)
作者:BlankSeed 发布时间:2022-10-10 19:11:55
标签:Pandas,map,apply,transform,agg
1.单列运算
在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:
df['col2'] = df['col1'].map(lambda x: x**2)
其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:
define square(x):
return (x ** 2)
df['col2'] = df['col1'].map(square)
2.多列运算
apply()会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。
要对DataFrame的多个列同时进行运算,可以使用apply,例如col3 = col1 + 2 * col2:
df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
其中x带表当前行,可以通过下标进行索引。
示例2
In [44]: f = lambda x : x.max()-x.min()
In [45]: df.apply(f)
Out[45]:
data1 5.042275
data2 1.967290
dtype: float64
In [46]: df.apply(f,axis=1)
Out[46]:
0 2.810074
1 1.009774
2 0.537183
3 0.813714
4 1.750022
dtype: float64
applymap()
用DataFrame的applymap方法,可以将函数应用到元素级的数据上。
In [47]: f = lambda x : x+1
In [48]: df.applymap(f)
Out[48]:
data1 data2
0 -1.332263 1.477812
1 0.284755 1.294528
2 0.066644 0.603827
3 1.757402 2.571117
4 3.710012 1.959990
Series也有一个元素级函数应用的方法map
In [49]: df['data1']
Out[49]:
0 -2.332263
1 -0.715245
2 -0.933356
3 0.757402
4 2.710012
Name: data1, dtype: float64
In [50]: df['data1'].map(f)
Out[50]:
0 -1.332263
1 0.284755
2 0.066644
3 1.757402
4 3.710012
Name: data1, dtype: float64
3.分组运算
可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作:
df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())
在transform函数中x.sum()与x.count()与SQL类似,计算的是当前group中的和与数量,还可以将transform的结果作为一个一个映射来使用, 例如:
sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count())
df['col1'].map(sumcount)
对col1进行一个map,得到对应的col2的运算值。
4.聚合函数
结合groupby与agg实现SQL中的分组聚合运算操作,需要使用相应的聚合函数:
df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})
上述代码生成了col1_mean, col1_sum与col2_count列。
示例2
In [52]: df.agg(['mean','sum'])
Out[52]:
data1 data2
mean -0.102690 0.581455
sum -0.513449 2.907274
函数 | 说明 |
---|---|
count | 分组中非Nan值的数量 |
sum | 非Nan值的和 |
mean | 非Nan值的平均值 |
median | 非Nan值的算术中间数 |
std,var | 标准差、方差 |
min,max | 非Nan值的最小值和最大值 |
prob | 非Nan值的积 |
first,last | 第一个和最后一个非Nan值 |
来源:https://blog.csdn.net/zwhooo/article/details/79696558
0
投稿
猜你喜欢
- 为了能让PHP连接MSSQL,系统需要安装MSSQL,PHP,且在PHP.ini中的配置中,将 ;extension=
- 类型主要针对文本属性进行定义。理解“编辑字体列表”和“行高”。二、CSS规则定义之“背景”·背景有背景颜色和背景图像的选择设置。·利于背景图
- 从今天起,我将陆续将 ppk on JavaScript 的读书心得发布到这个blog上。ppk是我所景仰的一位web开发者,原因无它,只是
- 可直接用这行命令!: pip install -U scikit-learn其他命令: (1)更新pippython -m pip inst
- 和YSlow一样,“Page Speed”也是一个基于firebug附加组件的FireFox插件。虽然听起来有点拗口,但是意思很容易理解:如
- 在HTML中,常见的URL有多种表示方式:相对URL: example.php demo
- Golang精编100题能力模型(测试)初级primary:熟悉基本语法,能够看懂代码的意图;在他人指导下能够完成用户故事的开发,编写的代码
- ---- ORACLE数据库由数据文件,控制文件和联机日志文件三种文件组成。由于磁盘空间的变化,或者基于数据库磁盘I/O性能的调
- 前段时日微软(Microsoft)正式发布了.NET Core 2.0,在很多开发社区中反响不错。但还是有一些开发者发出了疑问,.NET C
- 目前为止,我们使用函数时所用的参数都是位置参数,即传入函数的实际参数必须与形式参数的数量和位置对应。而本节将介绍的关键字参数,则可以避免牢记
- 当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度。笔者做了一个简单的尝试,1亿条数据,分100张表。具体实现过程如下。首先
- 在用户登录windows操作系统的时候,如果触发到了登录表单的密码录入框上,并且此时按下了“大写锁定键(Caps Lock)”,那么界面上会
- 在日常的前端开发工作中,我们会经常的与HTML、javascript、css等语言打交道,和一门真正的语言一样,计算机语言也有它的字母表、语
- join 方法用于连接字符串数组 s = ['a', 'b', 'c', 'd
- SQL Server数据库查询速度慢的原因有很多,常见的有以下几种:1、没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷)
- 由于某些原因需要把函数直接放到 img 标签上的 onload 属性执行,比如:For some reasons we have to ex
- 在SQL Server 中,如果给表的一个字段设置了默认值,就会在系统表sysobjects中生成一个默认约束。如果想删除这个设置了默认值的
- 正文:本文展示一些高级的Python设计结构和它们的使用方法。在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的
- 最近经常使用字符串查找功能。 包括 1、全匹配查找字符串 2、模糊查找字符串 CHARINDEX 和 PATINDEX 函数都返回指定模式的
- 做一个总结,把自己这些年的从业经历和观感罗列一下,某些话可能触及到个人神经,但它们没有恶意。设计师喜欢把世界想象得很美好,社会很和谐,但是这