浅谈Pandas dataframe数据处理方法的速度比较
作者:fatjimmy 发布时间:2023-04-17 06:38:39
数据修改主要以增删改差为主,这里比较几种写法在数据处理时间上的巨大差别。
数据量大概是500万行级别的数据,文件大小为100M。
1.iloc
iloc是一种速度极其慢的写法。这里我们对每个csv文件中的每一行循环再用iloc处理,示例代码如下:
for index in range(len(df)):
df.iloc['attr'][index] = xxx
使用这种方法对五百万行的数据进行处理大概需要5个小时,实在是很慢。
2.at
at相比于iloc有了很大的性能提升,也是for循环处理,示例代码如下:
for i in range(len(df)):
if df.at[i,'attr'] > 0:
sum_positive += df.at[i,'attr']
else:
sum_negetive += df.at[i,'sttr']
在我的程序里at和iloc是可以通用的,用at,程序的速度会有大幅提高,大概10分钟,但是还不够。
3.apply(lambda x:...)
想说apply是因为我觉得for循环速度太慢,想在循环上对程序进行优化。然后网上有人说apply可以大幅度提升速度,然而经过测试发现在我的程序里,使用apply和for差不多吧,性能也一般。
4.直接用series处理
这才是真正优化for循环的方法,以上面at的程序为例,可以改写为:
sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()
将程序都改为series处理,快了很多,最后500万行的数据大概需要37秒能跑完,基本符合预期。
这里提两句关于dataframe属性筛选,也就是上面df.attr > 0这一部分。首先pandas这个属性筛选实在是很强大,很方便。
其次是我们属性筛选的时候不要去修改属性,而是修改后面的数字,比如,我们不要这样写:
float(df.attr )> 0,而是这样写:
df.attr > str(0),因为df.attr作为属性是不能随便动的。
补充:pandas中DataFrame单个数据提取效率与修改效率
目标
使用pandas处理金融数据及建模中经常需要按时间序列顺序循DataFrame数据,读取具体位置的数据判断或修改。经验上这种操作要比直接对二维列表或者np.array格式数据慢的多,原因可能在于index及columns层次的查找(两个字典,都不是连续数组,每次查找定位都需要时间)和DataFrame中数据的内存布局,有机会以后再深入研究。
这里做一组数值实验对比几种方法的效率。
生成数据
先生成一个二维数组随机数作为DataFrame数据,不失一般性,并把列名、行名设为标记顺序的字符串。
import numpy as np
import pandas as pd
from copy import deepcopy
from time import time
np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
columns=['c'+str(_) for _ in range(I)],
index=['i'+str(_) for _ in range(I)])
然后从限定范围内随机生成取值位置,为了方便对比,把随机坐标与字符串名对应起来
columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]
读取测试
首先传统方法,直接取columns及index中名称定位
t0 = time()
for m in columns_str:
for n in index_str:
c = df[m][n]
print(time()-t0)
6.789840459823608
先columns列名后在values中取行坐标,速度快了一些
t0 = time()
for m in columns_str:
for n in index_num:
c = df[m].values[n]
print(time()-t0)
1.9697318077087402
loc方法,速度和直接取columns及index中名称定位差不多
t0 = time()
for m in columns_str:
for n in index_str:
c = df.loc[n, m]
print(time()-t0)
5.661889314651489
at方法,比loc快一点,毕竟loc可以切片的
t0 = time()
for m in columns_str:
for n in index_str:
c = df.at[m, n]
print(time()-t0)
3.3770089149475098
假设知道具体横纵坐标后,我们再比较:
还是从取values开始,也很慢,看来每次从df中取values很耗时
t0 = time()
for m in columns_num:
for n in index_num:
c = df.values[n][m]
print(time()-t0)
6.041872024536133
iloc试一下,没什么区别
t0 = time()
for m in columns_num:
for n in index_num:
c = df.iloc[n, m]
print(time()-t0)
6.103677034378052
iat做对比,提升不大,有点失望
t0 = time()
for m in columns_num:
for n in index_num:
c = df.iat[n, m]
print(time()-t0)
4.375299692153931
最后最高效的方法,还是先取二维数组来再定位
t0 = time()
b = df.values
for m in columns_num:
for n in index_num:
c = b[n][m]
print(time()-t0)
0.6402544975280762
修改测试
重复刚才的过程,把对应值改为0作为简单测试方式,别忘了原始数据要备份
取columns及index中名称定位
df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
for n in index_str:
df_backup[m][n] = 0.0
print(time()-t0)
41.99269938468933
先columns列名后在values中取行坐标
df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
for n in index_num:
df_backup[m].values[n] = 0.0
print(time()-t0)
2.215076208114624
loc方法
df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
for n in index_str:
df_backup.loc[n, m] = 0.0
print(time()-t0)
134.39290761947632
at方法,在修改数值上竟然比loc快这么多
df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
for n in index_str:
df_backup.at[n, m] = 0.0
print(time()-t0)
4.7453413009643555
在values上改,也是不错的,和读取相近,看来还都是在每次提取values上耗时
df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
for n in index_num:
df.values[n][m] = 0.0
print(time()-t0)
6.346027612686157
iloc方法
df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
for n in index_num:
df.iloc[n, m] = 0.0
print(time()-t0)
122.33384037017822
iat方法
df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
for n in index_num:
df.iat[n, m] = 0.0
print(time()-t0)
5.381632328033447
取二维数组来再定位
df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
for n in index_num:
c = b[n][m]
print(time()-t0)
0.4298992156982422
来源:https://blog.csdn.net/weixin_37426504/article/details/81669829


猜你喜欢
- 1、下载地址:MySQL官网2、解压解压之后的文件里边是没有data文件的,需要创建一个空文件夹命名为data(后面需要用),并且需要创建一
- 一、模型方法 本工程采用的模型方法为朴素贝叶斯分类算法,它的核心算法思想基于概率论。我们
- 简介Node2vec是一种用于图嵌入(Graph Embedding)的方法,可用于节点分类、社区发现和连接预测等任务。实现过程
- 从txt种获取数据 并且通过动态曲线显示import numpy as np import matplotlib.pyplot as plt
- 对于使用已经训练好的模型,比如VGG,RESNET等,keras都自带了一个keras.applications.imagenet_util
- 一、分析数据源这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。提示:以下操作
- 前言CORS 即 Cross Origin Resource Sharing 跨域资源共享.跨域请求分两种:简单请求、复杂请求.简单请求简单
- 为什么我写ASP分页教程要提到AJAX呢,因为我们要多练习一下编程过程中,结构化的重要性. 再加上很多朋友对分页感到很高深,所以一直都不敢去
- #mysqldump --help1.mysqldump的几种常用方法:(1)导出整个数据库(包括数据库中的数据)mysqldump -u
- 本文实例讲述了Python生成器定义与简单用法。分享给大家供大家参考,具体如下:一、什么是生成器在Python中,由于受到内存的限制,列表容
- 在 MySQL 下,在进行中文模糊检索时,经常会返回一些与之不相关的记录,如查找 "%a%" 时,返回的可能有中文字符,
- python实现简单神经网络算法,供大家参考,具体内容如下python实现二层神经网络包括输入层和输出层import numpy as np
- 1 问题在使用pyecharts绘制可视化地图信息时候,默认出现的图像是带有圆点标记,比如官网代码运行输出如下:2 问题解决方式一: sho
- 下载下面提供两种下载地址,官网地址一般为最新的,网盘地址会定期更新,但是不保证一定是最新的官网下载地址:https://www.jetbra
- 我们开发数据库应用时,常常需要用到模糊查询。如果同一个条件需要匹配很多字段怎么办呢?通常,程序员会每个字段都在SQL中“field like
- 如何下载:我先去MySQL首页下载最新版本的MySQL-链接:https://www.mysql.com/downloads/进入此界面下载
- 本文实例讲述了Python使用文件锁实现进程间同步功能。分享给大家供大家参考,具体如下:简介在实际应用中,会出现这种应用场景:希望shell
- 今天看YUI的视频教程,YUI的工程师介绍的一款在线的图片压缩工具,也许你用过,也许没有,不过我这里强烈推荐大家用一下,我用smush.it
- 比如有一个需求,通过sql语句,返回-5至5的随机整数.如果这一个放在PHP中,则非常简单直接用print rand(-5,5);?>
- redux的核心概念其实很简单:将需要修改的state都存入到store里,发起一个action用来描述发生了什么,用reducers描述a