python中使用矢量化替换循环详解
作者:梦回丶故里 发布时间:2023-08-27 00:51:01
所有编程语言都离不开循环。因此,默认情况下,只要有重复操作,我们就会开始执行循环。但是当我们处理大量迭代(数百万/十亿行)时,使用循环是一种犯罪。您可能会被困几个小时,后来才意识到它行不通。这就是在 python 中实现矢量化变得非常关键的地方。
什么是矢量化?
矢量化是在数据集上实现 (NumPy) 数组操作的技术。在后台,它将操作一次性应用于数组或系列的所有元素(不同于一次操作一行的“for”循环)。
接下来我们使用一些用例来演示什么是矢量化。
求数字之和
##使用循环
import time
start = time.time()
# iterative sum
total = 0
# iterating through 1.5 Million numbers
for item in range(0, 1500000):
total = total + item
print('sum is:' + str(total))
end = time.time()
print(end - start)
#1124999250000
#0.14 Seconds
## 使用矢量化
import numpy as np
start = time.time()
# vectorized sum - using numpy for vectorization
# np.arange create the sequence of numbers from 0 to 1499999
print(np.sum(np.arange(1500000)))
end = time.time()
print(end - start)
##1124999250000
##0.008 Seconds
与使用范围函数的迭代相比,矢量化的执行时间减少了约 18 倍。在使用 Pandas DataFrame 时,这种差异将变得更加显著。
数学运算
在数据科学中,在使用 Pandas DataFrame 时,开发人员使用循环通过数学运算创建新的派生列。
在下面的示例中,我们可以看到对于此类用例,用矢量化替换循环是多么容易。
DataFrame 是行和列形式的表格数据。
我们创建一个具有 500 万行和 4 列的 pandas DataFrame,其中填充了 0 到 50 之间的随机值。
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint( 0 , 50 , size=( 5000000 , 4 )), columns=( 'a' , 'b' , 'c' , 'd ' ))
df.shape
# (5000000, 5)
df.head()
创建一个新列“ratio”来查找列“d”和“c”的比率。
## 循环遍历
import time
start = time.time()
# 使用 iterrows 遍历 DataFrame
for idx, row in df.iterrows():
# 创建一个新列
df.at[idx, 'ratio' ] = 100 * (row[ "d" ] / row[ "c" ])
end = time.time()
print (end - start)
### 109 秒
## 使用矢量化
start = time.time()
df[ "ratio" ] = 100 * (df[ "d" ] / df[ "c" ])
end = time.time()
print (end - start)
### 0.12 秒
我们可以看到 DataFrame 的显著改进,与Python 中的循环相比,矢量化操作所花费的时间几乎快 1000 倍。
If-else 语句
我们实现了很多需要我们使用“If-else”类型逻辑的操作。我们可以轻松地将这些逻辑替换为 python 中的矢量化操作。
让我们看下面的例子来更好地理解它(我们将使用我们在用例 2 中创建的 DataFrame):
想象一下,我们要根据现有列“a”上的某些条件创建一个新列“e”
## 使用循环
import time
start = time.time()
# 使用 iterrows 遍历 DataFrame
for idx, row in df.iterrows():
if row.a == 0 :
df.at[idx, 'e' ] = row.d
elif ( row.a <= 25 ) & (row.a > 0 ):
df.at[idx, 'e' ] = (row.b)-(row.c)
else :
df.at[idx, 'e' ] = row.b + row.c
end = time.time()
print (end - start)
### 耗时:166 秒
## 矢量化
start = time.time()
df[ 'e' ] = df[ 'b' ] + df[ 'c' ]
df.loc[df[ 'a' ] <= 25 , 'e' ] = df [ 'b' ] -df[ 'c' ]
df.loc[df[ 'a' ]== 0 , 'e' ] = df[ 'd' ]end = time.time()
打印(结束 - 开始)
## 0.29007707595825195 秒
与使用 if-else 语句的 python 循环相比,向量化操作所花费的时间快 600 倍。
解决机器学习/深度学习网络
深度学习要求我们解决多个复杂的方程式,而且需要解决数百万和数十亿行的问题。在 Python 中运行循环来求解这些方程式非常慢,矢量化是最佳解决方案。
例如,计算以下多元线性回归方程中数百万行的 y 值:
我们可以用矢量化代替循环。
m1、m2、m3……的值是通过使用与 x1、x2、x3……对应的数百万个值求解上述等式来确定的
import numpy as np
# 设置 m 的初始值
m = np.random.rand( 1 , 5 )
# 500 万行的输入值
x = np.random.rand( 5000000 , 5 )
## 使用循环
import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)
total = 0
tic = time.process_time()
for i in range(0,5000000):
total = 0
for j in range(0,5):
total = total + x[i][j]*m[0][j]
zer[i] = total
toc = time.process_time()
print ("Computation time = "+ str ((toc - tic)) + "seconds" )
####计算时间 = 27.02 秒
## 矢量化
tic = time.process_time()
#dot product
np.dot(x,mT)
toc = time.process_time()
print ( "计算时间 = " + str ((toc - tic)) + "seconds" )
####计算时间 = 0.107 秒
np.dot 在后端实现向量化矩阵乘法。与 Python 中的循环相比,它快 165 倍。
结论
python 中的矢量化速度非常快,无论何时我们处理非常大的数据集,都应该优先于循环。
随着时间的推移开始实施它,您将习惯于按照代码的矢量化思路进行思考。
来源:https://www.51cto.com/article/744265.html
猜你喜欢
- 目录1. 什么是turtle2. turtle例子3. 其他turtle功能4. 更多的例子5. 总结6. 参考资料1. 什么是turtle
- 数组使用简介原文地址:30 Days of Mootools 1.2 Tutorials - Day 3 - Intro to Using
- 平常我们使用js代码获取的时间都是客户端的时间,那么有什么办法在浏览器中显示的是服务器断的时间吗?请看下面代码:<span id=&q
- 简介testify可以说是最流行的(从 GitHub star 数来看)Go 语言测试库了。testify提供了很多方便的函数帮助我们做as
- 本文实例讲述了JavaScript求一组数的最小公倍数和最大公约数常用算法。分享给大家供大家参考,具体如下:方法来自求多个数最小公倍数的一种
- 前言最近在搞标准化巡检平台,通过 MySQL 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目,表中索引过多,会导致表空间占用较
- 切片:切片指从现有列表中,获取一个子列表返回一个新列表,不影响原列表。下标以 0 开始:list = ['红','绿
- 本文实例为大家分享了python学生管理系统的具体代码,供大家参考,具体内容如下基于列表存储的学生管理系统,实现如下功能==========
- 本文讲述了python安装mysql-python的方法。分享给大家供大家参考,具体如下:ubuntu 系统下进行的操作首先安装了pip工具
- 正在看的ORACLE教程是:Oracle9iPL/SQL编程的经验小结。平时在PL/SQL中的编程中遇到一些问题,这里以问答的形式来进行把它
- 本文实例讲述了PHP cookie,session的使用与用户自动登录功能实现方法。分享给大家供大家参考,具体如下:cookie的使用//生
- 本文实例为大家分享了python多线程http压力测试的具体代码,供大家参考,具体内容如下#coding=utf-8import sysim
- 今天在继续学习Python时,打开Pycharm后,发现有一个项目下的项目文件名是红色的,如下图:刚开始我以为是我升级 Pycharm导致的
- 装饰器基本概念大家都知道装饰器是一个很著名的设计模式,经常被用于 AOP (面向切面编程)的场景,较为经典的有插入日志,性能测试,事务处理,
- 上篇文章给大家介绍了 在 webpack 中使用 ECharts的实例详解 ,可以点击查看。1. 使用NPM安装(全局引入)执行下面的命令:
- 本文讲述了Python基本语法。分享给大家供大家参考,具体如下:概述:这里主要讲述以下内容:① 缩进② 流程控制语句③ 表达式④ 函数⑤ 对
- 二分查找Binary Search的思想:以有序表表示静态查找表时,查找函数可以用二分查找来实现。二分查找(Binary Search)的查
- QQ登录Banner增加了剧情的概念之后,已经推出了春节和情人节两期。这之后设想能围绕Banner做的更加丰富,对传统文化的体现也能更为深入
- 1.首先在index.html引入高德地图的秘钥。如图:注意:如果使用关键字搜索功能要加上 plugin=AMap.Autocomplete
- 1.什么是property简单地说就是一个类里面的方法一旦被@property装饰,就可以像调用属性一样地去调用这个方法,它能够简化调用者获