NumPy 与 Python 内置列表计算标准差区别详析
作者:宇宙之一粟 发布时间:2023-08-28 20:01:19
1 什么是 Numpy
NumPy,是 Numerical Python 的简称,用于高性能科学计算和数据分析的基础包,像数学科学工具(pandas)和框架(Scikit-learn)中都使用到了 NumPy 这个包。
NumPy 中的基本数据结构是ndarray
或者 N 维数值数组,在形式上来说,它的结构有点像 Python 的基础类型——Python列表。
但本质上,这两者并不同,可以看到一个简单的对比。
我们创建两个列表,当我们创建好了之后,可以使用 +
运算符进行连接:
list1 = [i for i in range(1,11)]
list2 = [i**2 for i in range(1,11)]
print(list1+list2)
# [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
列表中元素的处理感觉像对象,不是很数字,不是吗? 如果这些是数字向量而不是简单的数字列表,您会期望 + 运算符的行为略有不同,并将第一个列表中的数字按元素添加到第二个列表中的相应数字中。
接下来看一下 Nympy 的数组版本:
import numpy as np
arr1 = np.array(list1)
arr2 = np.array(list2)
arr1 + arr2
# array([ 2, 6, 12, 20, 30, 42, 56, 72, 90, 110])
通过 numpy 的np.array
数组方法实现了两个列表内的逐个值进行相加。
我们通过dir
函数来看两者的区别,先看 Python 内置列表 list1
的内置方法:
再用同样的方法看一下 arr1中的方法:
NumPy 数组对象还有更多可用的函数和属性。 特别要注意诸如mean
、std
和sum
之类的方法,因为它们清楚地表明重点关注使用这种数组对象的数值/统计计算。 而且这些操作也很快。
2 NumPy 数组和 Python 内置计算对比
NumPy 的速度要快得多,因为它的矢量化实现以及它的许多核心例程最初是用 C 语言(基于 CPython 框架)编写的。 NumPy 数组是同构类型的密集排列的数组。 相比之下,Python 列表是指向对象的指针数组,即使它们都属于同一类型。 因此,我们得到了参考局部性的好处。
许多 NumPy 操作是用 C 语言实现的,避免了 Python 中的循环、指针间接和逐元素动态类型检查的一般成本。 特别是,速度的提升取决于您正在执行的操作。 对于数据科学和 ML 任务,这是一个无价的优势,因为它避免了长和多维数组中的循环。
让我们使用 @timing
计时装饰器来说明这一点。 这是一个围绕两个函数 std_dev
和std_dev_python
包装装饰器的代码,分别使用 NumPy 和本机 Python 代码实现列表/数组的标准差计算。
3 函数计算时间装饰器
我们可以使用 Python 装饰器和functools
模块的wrapping
来写一个 时间装饰器timing
:
def timing(func):
@wraps(func)
def wrap(*args, **kw):
begin_time = time()
result = func(*args, **kw)
end_time = time()
print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")
return result
return wrap
4 标准差计算公式
然后利用这个时间装饰器来看 Numpy 数组和 Python 内置的列表,然后计算他们的标准差,
公式如图:
定义 Numpy 计算标准差的函数
std_dev()
,numpy
模块中内置了标准差公式的函数a.std()
,我们可以直接调用列表计算公式方法需要按照公式一步一步计算:
先求求出宗和
s
然后求出平均值
average
计算每个数值与平均值的差的平方,再求和
sumsq
再求出
sumsq
的平均值sumsq_average
得到最终的标准差结果
result
代码如下:
from functools import wraps
from time import time
import numpy as np
from math import sqrt
def timing(func):
@wraps(func)
def wrap(*args, **kw):
begin_time = time()
result = func(*args, **kw)
end_time = time()
# print(f"Function '{func.__name__}' with arguments {args},keywords {kw} took {end_time-begin_time} seconds to run")
print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")
return result
return wrap
@timing
def std_dev(a):
if isinstance(a, list):
a = np.array(a)
s = a.std()
return s
@timing
def std_dev_python(lst):
length = len(lst)
s = sum(lst)
average = s / length
sumsq = 0
for i in lst:
sumsq += (i-average)**2
sumsq_average = sumsq/length
result = sqrt(sumsq_average)
return result
运行结果,最终可以看到 1000000 个值得标准差的值为 288675.13459,而 Numpy 计算时间为 0.0080 s,而 Python 原生计算方式为 0.2499 s:
由此可见,Numpy 的方式明显更快。
5 总结
NumPy 是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,NumPy的优势就越明显。
来源:https://blog.51cto.com/yuzhou1su/5456245


猜你喜欢
- 这篇文章给大家介绍Django中使用 Closure Table 储存无限分级数据,具体内容如下所述:起步对于数据量大的情况(比如用户之间有
- Python中支持Convex Optimization(凸规划)的模块为CVXOPT,其安装方式为:pip install cvxopt一
- 本文实例讲述了python字典get()方法用法。分享给大家供大家参考。具体分析如下:如果我们需要获取字典值的话,我们有两种方法,一个是通过
- 本文实例讲述了Symfony模板的快捷变量用法。分享给大家供大家参考,具体如下:在模板里,有一些symfony变量可以直接使用。通过这些快捷
- 最近网上再度兴起了CSS布局和Table 布局的争论。我最初颇有些不以为然:我原以为CSS 布局的意义早已深入人心,却没想到还有这么多设计师
- 本文介绍了vue生成随机验证码的示例代码,分享给大家,具体如下:样式自调,最终效果如图:实现效果:点击右边input框会自动切换,如果输入的
- 环境:Ubuntu16.4 python版本:3.6.4 库:wordcloud这次我们要讲的是爬取QQ音乐的评论并制成云词图,我们这里拿周
- 在日常的测试工作中,我们的测试用例一般都是保存在Excel文件中,当然也有一些公司会使用Xmind来编写测试用例,那么为什么我们在这里只是讲
- 1969年8月8日,在北京协和医院降生了一个漂亮的小女孩。接生的阿姨说,她的声音这么大,好象想要全世界的人都听到。后来,她的父亲为她取了一个
- pytest的setup与teardown1)pytest提供了两套互相独立的setup 与 teardown和一对相对自由的setup与t
- 手写数字识别算法import pandas as pdimport numpy as npfrom sklearn.neural_netwo
- 在自己的网站主页上增加社会化分享按钮,是有效提高自己网站流量的一种方法。今天我在无争围棋网上增加了社会化按钮,根据我个人的习惯,我选择了豆瓣
- 本文实例讲述了Python实现计算两个时间之间相差天数的方法。分享给大家供大家参考,具体如下:#-*- encoding:UTF-8 -*-
- 目标:目标文件为一个float32型存储的二进制文件,按列优先方式存储。本文使用Python读取该二进制文件并使用matplotlib.py
- 本文主要介绍Python3.9的一些新特性,如:更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API,
- 本文实例讲述了js实现鼠标悬浮给图片加边框的方法。分享给大家供大家参考。具体实现方法如下:html代码:<div class=&quo
- 这篇文章主要介绍了pycharm运行scrapy过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的
- import csvclass HandleCsv: ''' csv文件处理类
- Pattern.split方法详解/** * 测试Pattern.split方法 */ @Test public void testPatt
- 如下所示:numpy.power(x1, x2)数组的元素分别求n次方。x2可以是数字,也可以是数组,但是x1和x2的列数要相同。 >