pandas提升计算效率的一些方法汇总
作者:rs_gis 发布时间:2023-12-01 00:08:04
前言
Pandas是为一次性处理整个行或列的矢量化操作而设计的,循环遍历每个单元格、行或列并不是它的设计用途。所以,在使用Pandas时,你应该考虑高度可并行化的矩阵运算。
一、避免使用for循环
尽量使用列号或者行号进行矩阵检索,避免使用for循环。
1.1使用for循环
import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
target = pd.read_csv(path,header=None,sep=',')
return target
start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
b = a.iloc[i]
end_time = datetime.datetime.now()
print(end_time-start_time)
耗时:0:00:02.455211
1.2使用行号检索
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
target = pd.read_csv(path,header=None,sep=',')
return target
start_time = datetime.datetime.now()
a = read_csv(path)
b = a.iloc[10000]
end_time = datetime.datetime.now()
print(end_time-start_time)
耗时:0:00:00.464756
二、使用for循环的条件下提高效率
2.0 如果必须使用for循环如何提高效率
我们可以做的最简单但非常有价值的加速是使用Pandas的内置 .iterrows() 函数。
在上一节中编写for循环时,我们使用了 range() 函数。然而,当我们在Python中对大范围的值进行循环时,生成器往往要快得多。
Pandas的 .iterrows() 函数在内部实现了一个生成器函数,该函数将在每次迭代中生成一行Dataframe。更准确地说,.iterrows() 为DataFrame中的每一行生成(index, Series)的对(元组)。这实际上与在原始Python中使用 enumerate() 之类的东西是一样的,但运行速度要快得多!
生成器(Generators)
生成器函数允许你声明一个行为类似迭代器的函数,也就是说,它可以在for循环中使用。这大大简化了代码,并且比简单的for循环更节省内存。
当你想要处理一个庞大的列表时,比如10亿个浮点数,问题就出现了。使用for循环,在内存中创建了大量的内存huge列表,并不是每个人都有无限的RAM来存储这样的东西!
生成器将创建元素时,仅在需要时将它们存储在内存中。一次一个。这意味着,如果必须创建10亿个浮点数,那么只能一次将它们存储在内存中。Python中的range()函数使用生成器来构建列表。
也就是说,如果你想多次迭代列表并且它足够小以适应内存,那么使用for循环和range函数会更好。这是因为每次访问list值时,生成器和range都会重新生成它们,而range是一个静态列表,并且内存中已存在整数以便快速访问。
2.1使用range
import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
target = pd.read_csv(path,header=None,sep=',')
return target
start_time = datetime.datetime.now()
a = read_csv(path)
for data_row in range(a.shape[0]):
b = a.iloc[data_row]
end_time = datetime.datetime.now()
print(end_time-start_time)
耗时:0:00:07.642816
2.2使用 .iterrows() 代替 range
import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
target = pd.read_csv(path,header=None,sep=',')
return target
start_time = datetime.datetime.now()
a = read_csv(path)
for index,data_row in a.iterrows():
b = data_row
end_time = datetime.datetime.now()
print(end_time-start_time)
耗时:0:00:03.513161
三、使用.apply
iterrows()函数极大地提高了速度,但我们还远远没有完成。请始终记住,当使用为向量操作设计的库时,可能有一种方法可以在完全没有for循环的情况下最高效地完成任务。
为我们提供此功能的Pandas功能是 .apply() 函数。apply()函数接受另一个函数作为输入,并沿着DataFrame的轴(行、列等)应用它。在传递函数的这种情况下,lambda通常可以方便地将所有内容打包在一起。
参考链接
四、其他方式
博客链接
总结
来源:https://blog.csdn.net/rs_gis/article/details/117379071


猜你喜欢
- 引言本篇文章记录仿写一个el-collapse组件细节,从而有助于大家更好理解饿了么ui对应组件具体工作细节。本文是elementui源码学
- 使用addEventListener事件触发执行函数的this在普通的dom操作中,若是使用addEventListener如下面的例子&l
- 本文实例讲述了Python实现判断字符串中包含某个字符的判断函数。分享给大家供大家参考,具体如下:#coding=utf8#参数包含两个:#
- 本人在CentOS6.4上安装万mysql后,无法通过root进入,因为安装的时候,并没有设置root密码,似乎有个初始随机密码,但是不记得
- 本文实例为大家分享了python定时关机的具体代码,供大家参考,具体内容如下# coding: utf-8import sysimport
- MYSQL初学者使用指南与介绍 一、连接MYSQL。 格式: mysql -h主机地址 -u用户名 -p用户密码 1、例1:连接到本机上的M
- 字典的添加与修改# coding:utf-8if __name__ == '__main__':
- 相比于2018年,在ICLR2019提交论文中,提及不同框架的论文数量发生了极大变化,网友发现,提及tensorflow的论文数量从2018
- python的数据类型有:数字(int)、浮点(float)、字符串(str),列表(list)、元组(tuple)、字典(dict)、集合
- SQL*DBA命令的安全性: 如果您没有SQL*PLUS应用程序,您也可以使用SQL*DBA作SQL查权限相关的命令只能分配给Oracle软
- PHP mysqli_stat() 函数创建 SSL 连接:<?php// 假定数据库用户名:root,密码:123456,数据库:c
- 这个示例使用的Python版本为3.7版本,一、bing壁纸接口访问bing的官网,通过浏览器开发者工具,查看网络可以找到一个请求壁纸的接口
- 引言最常见的闭包 (Closure) 范式大家都很熟悉了:(function() {// ...})(); 很
- 这段时间用到了scons,这里总结下,也方便我以后查阅。一、安装sconsLinux环境(以CentOS为例)1、yum安装yum inst
- concat 与其说是连接,更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题,是横向拼接还是纵向拼接,所以concat 函数
- 微信入口绑定,微信事件处理,微信API全部操作包含在这些文件中。内容有:微信摇一摇接口/微信多客服接口/微信支付接口/微信红包接口/微信卡券
- 1. 使用 fileinput 进行迭代fileinput 模块可以对一个或多个文件中的内容进行迭代、遍历等操作。该模块的 input()
- 事实上,当我们向文件导入某个模块时,导入的是
- 初学Python,在网上看到Python图片转字符画的教程,我也来尝试下。 首先我们要用到Python的PIL库的Image模块,PIL(P
- 2020年4月4日,是个特殊的日子,我们看到朋友圈很多灰化的图片.今天我们就聊聊图片灰度处理这事儿.PIL的基本概念:PIL中所涉及的基本概