pandas使用函数批量处理数据(map、apply、applymap)
作者:william_cheng666 发布时间:2023-03-07 11:12:09
前言
在我们对DataFrame对象进行处理时候,下意识的会想到对DataFrame进行遍历,然后将处理后的值再填入DataFrame中,这样做比较繁琐,且处理大量数据时耗时较长。Pandas内置了一个可以对DataFrame批量进行函数处理的工具:map、apply和applymap。
提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍
一、pandas.Series.map()是什么?
把Series中的值进行逐一映射,带入进函数、字典或Series中得出的另一个值。
Series.map(arg, na_action=None)
参数:
arg:函数、字典类数据、Series;映射对应关系
na_action{None, ‘ignore'}:默认为None;处理NaN变量,如果为None则不处理NaN对象,如果为‘ignore'则将NaN对象当做普通对象带入规则。
返回Series
二、pandas.Series.map()用法和优点
本节主要讲述map()函数的主要用法和相比于方法的优点
1、map()用法
创建案例DataFrame
import pandas as pd
import numpy as np
import time
data = pd.DataFrame({'name':['Verne Raymond','Chapman Becher','Patrick George','Saxon MacArthur',
'Joshua Marjory','Luther Pigou','Fanny Agnes','Karen Bush','Elaine Whitman'],
'gender':[0,1,0,0,1,1,1,0,1],'first_name':np.nan,'last_name':np.nan})
print(data)
name gender first_name last_name
0 Verne Raymond 0 NaN NaN
1 Chapman Becher 1 NaN NaN
2 Patrick George 0 NaN NaN
3 Saxon MacArthur 0 NaN NaN
4 Joshua Marjory 1 NaN NaN
5 Luther Pigou 1 NaN NaN
6 Fanny Agnes 1 NaN NaN
7 Karen Bush 0 NaN NaN
8 Elaine Whitman 1 NaN NaN
现在需要将name列的姓和名拆分开来分别放入first_name 和last_name里面,使用map()函数实现,并计算所用时间
def first_name_map(x):
return x.split(' ')[0]
def last_name_map(x):
return x.split(' ')[1]
data['first_name'] = data['name'].map(first_name_map)
data['last_name'] = data['name'].map(last_name_map)
print('use time:'+str(end-start))
print(data)
use time:0.0009970664978027344
name gender first_name last_name
0 Verne Raymond 0 Verne Raymond
1 Chapman Becher 1 Chapman Becher
2 Patrick George 0 Patrick George
3 Saxon MacArthur 0 Saxon MacArthur
4 Joshua Marjory 1 Joshua Marjory
5 Luther Pigou 1 Luther Pigou
6 Fanny Agnes 1 Fanny Agnes
7 Karen Bush 0 Karen Bush
8 Elaine Whitman 1 Elaine Whitman
如果要将性别代号的0、1替换为中文Male和Female,可以使用字典映射功能,如下
data['gender'] = data['gender'].map({0:'Female',1:'Male'})
print(data)
name gender first_name last_name
0 Verne Raymond Female Verne Raymond
1 Chapman Becher Male Chapman Becher
2 Patrick George Female Patrick George
3 Saxon MacArthur Female Saxon MacArthur
4 Joshua Marjory Male Joshua Marjory
5 Luther Pigou Male Luther Pigou
6 Fanny Agnes Male Fanny Agnes
7 Karen Bush Female Karen Bush
8 Elaine Whitman Male Elaine Whitman
2、map()相比其他方式的优点
较普通的方法主要是方便和速度快,下面例子进行对比,上面已经计算过使用map()方法处理的速度为:0.0009970664978027344
传统遍历
start = time.time()
for index,rows in data.iterrows():
data['first_name'][index] = rows['name'].split(' ')[0]
data['last_name'][index] = rows['name'].split(' ')[1]
end = time.time()
print('use time:'+str(end-start))
use time:0.5146446228027344
可以看到使用map()方法比使用直接遍历的方式快了500多倍
list暂存的方法
start = time.time()
first_name = []
last_name = []
for index,rows in data.iterrows():
first_name.append(rows['name'].split(' ')[0])
last_name.append(rows['name'].split(' ')[1])
data['first_name'] = first_name
data['last_name'] = last_name
end = time.time()
print('use time:'+str(end-start))
use time:0.001994609832763672
可以看出来使用list暂存的方法比遍历方法快了250多倍,但是比map方法还是慢了一半
二、apply()函数
apply()的使用方法与map()的使用方法类似,只是apply()除了传入Series参数外还可以多传入额外的参数。
Series.apply(func,convert_dtype = True,args = (), **kwds)
参数:
func:函数名称
convert_dtype:bool类值, 默认为True;尝试自己寻找最适合的数据类型。如果为False则dtype=object。
args:元组;在Series之后传递位置参数信息
**kwds:给函数传递其他参数(以字典的形式)
返回Series或DataFrame
下面是案例(参考官方文档案例)
s = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
print(s)
London 20
New York 21
Helsinki 12
dtype: int64
处理数据
def subtract_custom_value(x, custom_value):
return x - custom_value
s.apply(subtract_custom_value, args=(5,))
London 15
New York 16
Helsinki 7
dtype: int64
使用**kwds参数
def subtract_custom_value(x, **kwds):
for key in kwds:
x -= kwds[key]
return x
s.apply(subtract_custom_value, num = 5)
London 15
New York 16
Helsinki 7
dtype: int64
三、applymap()函数用法
applymap()函数处理的对象是DataFrame,并非Series,它没有前面两个函数用得多,但在某些情况也很有用。
DataFrame.applymap(func)
参数:
func:函数;要调用的Python函数,输入输出都为单个值
返回DataFrame
下面是简单的案例:
import pandas as pd
import numpy as np
data = pd.DataFrame(
{
"A":np.random.randn(3),
"B":np.random.randn(3),
"C":np.random.randn(3),
}
)
print(data )
A B C
0 2.128483 -1.701311 -1.362955
1 -1.149937 1.108856 -0.259637
2 -0.076621 -0.379672 -2.636464
计算所有值的平方:
data.applymap(lambda x: x**2)
A B C
0 4.530439 2.894459 1.857645
1 1.322356 1.229561 0.067411
2 0.005871 0.144151 6.950940
总结
本文展示了Pandas将数据映射到函数里批量快速处理的方法,主要使用的了Pandas自带的map、apply和applymap工具,实验结果是比普通循环快500倍,后续还将介绍更多数据处理实用的技巧。
来源:https://blog.csdn.net/weixin_43887421/article/details/109776020


猜你喜欢
- 腐蚀在一些图像中,会有一些异常的部分,比如这样的毛刺:对于这样的情况,我们就可以应用复式操作了。需要注意的是,腐蚀操作只能处理二值图像,即像
- 本文实例讲述了Python装饰器用法。分享给大家供大家参考,具体如下:无参数的装饰器#coding=utf-8def log(func):
- 普通卷积使用nn.Conv2d(),一般还会接上BN和ReLu参数量NNCin*Cout+Cout(如果有bias,相对来说表示对参数量影响
- 问题描述本人pycharm使用anaconda创建的虚拟环境后,使用pycharm终端安装第三方库,但路径一直安装到磁盘下的系统路径中,如图
- 经常会遇到这样一个情况:浏览器弹出对话框,提示脚本运行时间过长,询问“停止”还是“继续”。那究竟各个浏览器是如何判断在什么时候才弹出此对话框
- 比较好的地方就是js数组的操作,不重复的数组id显示,完美实现。<script language="JavaScript&q
- Hello,各位读者朋友们好啊,我是小张~这不国庆嘛,就把最近很火的一个韩剧《鱿鱼游戏》刷了下,这部剧整体剧情来说还是非常不错的,很值得一看
- Mysql的connector/net5.0下载地址: http://dev.mysql.com/get/Downloads/Connect
- 这个仿msn的右下角popup提示窗口效果很久以前收集的,现在整理出来给大家分享,需要的朋友可以拿去用,特点,提示窗口内容和js代码分离容易
- 应用场景:在实际使用中经常会遇到需要在Form表单中使用table表格进行表单提交,同时又需要对table的字段进行校验,效果如图所示:这个
- 配置说明Linux系统:CentOS-7.0MySQL版本:5.7.21Linux系统下启动多个MySQL实例,目前知道有两种方法,一种是通
- 1.连接测试连接是否成功:import redisr = redis.Redis(host='192.168.136.102'
- 可以说这个功能,在我理解了前面的“贪吃蛇”之后,实在是与刚开始想象的难度差了好多,当然是这种方式有取巧之嫌,终归是实现了功能,我们来进行分析
- 1、pd.cut函数有7个参数,主要用于对数据从最大值到最小值进行等距划分 pandas.cut(x, bins,&nb
- 本文实例为大家分享了js图片加载淡入淡出效果展示的具体代码,供大家参考,具体内容如下HTML代码首先是图片标记的写法:<img dat
- 本系列教程我们将使用python实现一些简单的测试工具,为了尽可能的简单,我们的工具以命令行工具为主。本系列教程使用的python版本是3.
- 随笔:(1) 命名空间  
- 同时装配两个相同类型数据库1.配置文件:spring: profiles: active: devda
- 使用socket实现tcp通信,需导入socket模块1、服务端主要步骤:(1)创建socket:socket.socket(family=
- 前言ImageNet 是一个著名的公共图像数据库,用于训练对象分类、检测和分割等任务的模型,它包含超过 1400 万张图像。在 Python