Python3+pycuda实现执行简单GPU计算任务
作者:DECHIN 发布时间:2022-06-04 09:55:29
技术背景
GPU的加速技术在深度学习、量子计算领域都已经被广泛的应用。其适用的计算模型是小内存的密集型计算场景,如果计算的模型内存较大,则需要使用到共享内存,这会直接导致巨大的数据交互的运算量,通信开销较大。因为pycuda的出现,也使得我们可以直接在python内直接使用GPU函数,当然也可以直接在python代码中集成一些C++的代码,用于构建GPU计算的函数。有一个专门介绍pycuda使用案例的中文开源代码仓可以简单参考一些实现的示例,但是这里面的示例数量还是比较有限,更多的案例可以直接参考pycuda官方文档。
pycuda环境配置
pycuda的安装环境很大程度上取决约显卡驱动本身是否能够安装成功,除了安装pycuda库本身之外,重点是需要确保如下的指令可以运行成功:
[dechin@dechin-manjaro pycuda]$ nvidia-smi
Sun Mar 21 20:26:43 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.45.01 Driver Version: 455.45.01 CUDA Version: 11.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce MX250 Off | 00000000:3C:00.0 Off | N/A |
| N/A 48C P0 N/A / N/A | 0MiB / 2002MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
上述返回的结果是一个没有GPU任务情况下的展示界面,包含有显卡型号、显卡内存等信息。如果存在执行的任务,则显示结果如下案例所示:
[dechin@dechin-manjaro pycuda]$ nvidia-smi
Sun Mar 21 20:56:04 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.45.01 Driver Version: 455.45.01 CUDA Version: 11.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce MX250 Off | 00000000:3C:00.0 Off | N/A |
| N/A 47C P0 N/A / N/A | 31MiB / 2002MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 18427 C python3 29MiB |
+-----------------------------------------------------------------------------+
我们发现这里多了一个pid为18427的python的进程正在使用GPU进行计算。在运算过程中,如果任务未能够执行成功,有可能在内存中遗留一个进程,这需要我们自己手动去释放。最简单粗暴的方法就是:直接使用kill -9 pid来杀死残留的进程。我们可以使用pycuda自带的函数接口,也可以自己写C++代码来实现GPU计算的相关功能,当然一般情况下更加推荐使用pycuda自带的函数。以下为一部分已经实现的接口函数,比如gpuarray的函数:
再比如cumath的函数:
使用GPU计算向量指数
对于一个向量的指数而言,其实就是将每一个的向量元素取指数。当然,这与前面一篇关于量子门操作的博客中介绍的矩阵指数略有区别,这点要注意区分。
在下面的示例中,我们对比了numpy中实现的指数运算和pycuda中实现的指数运算。
# array_exp.py
import pycuda.autoinit
import pycuda.gpuarray as ga
import pycuda.cumath as gm
import numpy as np
import sys
if sys.argv[1] == '-l':
length = int(sys.argv[2]) # 从命令行获取参数值
np.random.seed(1)
array = np.random.randn(length).astype(np.float32)
array_gpu = ga.to_gpu(array)
exp_array = np.exp(array)
print (exp_array)
exp_array_gpu = gm.exp(array_gpu)
gpu_exp_array = exp_array_gpu.get()
print (gpu_exp_array)
这里面我们计算一个随机向量的指数,向量的维度length是从命令行获取的一个参数,上述代码的执行方式和执行结果如下所示:
[dechin@dechin-manjaro pycuda]$ python3 array_exp.py -l 5
[5.0750957 0.5423974 0.58968204 0.34199178 2.3759744 ]
[5.075096 0.5423974 0.58968204 0.34199178 2.3759747 ]
我们先确保两者计算出来的结果是一致的,这里我们可以观察到,两个计算的结果只保障了7位的有效数字是相等的,这一点在大部分的场景下精度都是有保障的。接下来我们使用timeit来统计和对比两者的性能:
# array_exp.py
import pycuda.autoinit
import pycuda.gpuarray as ga
import pycuda.cumath as gm
import numpy as np
import sys
import timeit
if sys.argv[1] == '-l':
length = int(sys.argv[2])
np.random.seed(1)
array = np.random.randn(length).astype(np.float32)
array_gpu = ga.to_gpu(array)
def npexp():
exp_array = np.exp(array)
def gmexp():
exp_array_gpu = gm.exp(array_gpu)
# gpu_exp_array = exp_array_gpu.get()
if __name__ == '__main__':
n = 1000
t1 = timeit.timeit('npexp()', setup='from __main__ import npexp', number=n)
print (t1)
t2 = timeit.timeit('gmexp()', setup='from __main__ import gmexp', number=n)
print (t2)
这里也顺便介绍一下timeit的使用方法:这个函数的输入分别是:函数名、函数的导入方式、函数的重复次数。这里需要特别说明的是,如果在函数的导入方式中,不使用__main__函数进行导入,即使是本文件下的python函数,也是无法被导入成功的。在输入的向量达到一定的规模大小时,我们发现在执行时间上相比于numpy有非常大的优势。当然还有一点需要注意的是,由于我们测试的是计算速度,原本使用了get()函数将GPU中计算的结果进行导出,但是这部分其实不应该包含在计算的时间内,因此后来又注释掉了。具体的测试数据如下所示:
[dechin@dechin-manjaro pycuda]$ python3 array_exp.py -l 10000000
26.13127974300005
3.469969915000547
总结概要
使用GPU来进行计算,可以极大程度上的加速我们所需要计算的任务,这得益于GPU强大的自带的并行化技术。pycuda的出现,使得我们不需要手工去写GPU的C或者C++代码也可以调用GPU来进行计算,还提供了众多的python接口可以直接使用。经过测试,本文给出了一些pycuda的基本使用方法示例,以及初步的测试结果,从测试结果中我们进一步明确了pycuda的高性能特性。
来源:https://www.cnblogs.com/dechinphy/p/pycuda.html
猜你喜欢
- 在开发过程中,有时遇到由于缓存问题导致页面不能及时更新,有时页面引入了不必需的样式脚本文件,有时由于文件太多,字节过大导致页面的性能缓慢,为
- 案例展示电影详情,传递电影的id.从search.vue传递到movie.vuemethods: {showMovie(e){var tra
- 原来字母还可以组合成各种动物图案,真是佩服设计师的奇思妙想,很可爱,超级有趣的组合!Bembo's Zoo 猴子:羊是牛吗,勤劳的水
- 如果你正从你的用户那里收集信息, 没有比网页表单更简单和直接的办法了。一份有良好设计的表单可以提供有价值的信息, 相反, 他们有可能把用户吓
- PDOStatement::nextRowsetPDOStatement::nextRowset — 在一个多行集语句句柄中推进到下一个行集
- 概述迭代器是访问集合元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。延迟计算或惰性
- 随着JS与XHTML的应用普及,越来越多的web界面应用技术出现在网站上,比如我们常见的日历控件,搜索下拉框等,这些web界面应用技术大大的
- Protocol Buffers (类似XML的一种数据描述语言)最新版本2.3里,protoc—py_out命令只生成原生的P
- 如果你的网站涉及个人隐私或者机密性非公开的网页,怎样告诉禁止搜索引擎收录抓取,下面侯庆龙说下以下方法,希望对不想被搜索引擎收录抓取网站有所帮
- python 中提供一种用于对函数固定属性的函数(与数学上的偏函数不一样)# 通常会返回10进制int('12345') &
- MySQL安全性指南(2) 作 者: 晏子2.1.3 数据库和表权限下列权限运用于数据库和表上的操作。ALTER允许你使用ALTER TAB
- 本文实例讲述了Django框架静态文件使用/中间件/禁用ip功能。分享给大家供大家参考,具体如下:静态文件一、静态文件的使用静态文件:网页中
- 本文实例讲述了php延迟静态绑定的方法。分享给大家供大家参考。具体分析如下:php延迟静态绑定:指类的self,不是以定义时为准,而是以计算
- 1、程序执行代码:#Author by Andy#_*_ coding:utf-8 _*_import os,sys,timeBase_di
- 再之前同时安装 python 后 只需把环境变量PATH 里面改为PATH=C:\Python36-32\Scripts\;C:\Pytho
- 不知不觉2008已经走到了尽头,在这近一年中,一直不断的尝试用ExtJS做项目,从1.1到现在的2.2,吃了不少苦头,也有不少收获,总结一
- Go语言集成开发环境之VS Code安装使用VS Code是微软开源的一款编辑器,插件系统十分的丰富。下面介绍如何用VS Code搭建go语
- python安装库时,有时候会报错windows error 5,可以尝试关闭所有使用python的编辑器、文件等,然后重新pip安装,如果
- 首先我们有一个数据是一个mn的numpy矩阵现在我们希望能够进行给他加上一列变成一个m(n+1)的矩阵import numpy as npa
- 合理地扩大页面链接响应区域可以提高网页的易用性。同时还要兼顾到链接的交互一致性以及视觉上的平衡,就需要做一些特殊的处理。实例一:一张图配一个