几行代码让 Python 函数执行快 30 倍
作者:野客 发布时间:2021-06-22 14:52:23
Python 是一种流行的编程语言,也是数据科学社区中最受欢迎的语言。与其他流行编程语言相比,Python
的主要缺点是它的动态特性和多功能属性拖慢了速度表现。Python
代码是在运行时被解释的,而不是在编译时被编译为原生代码。
1、Python 多线程处理的基本指南
C 语言的执行速度比 Python
代码快 10
到 100
倍。但如果对比开发速度的话,Python
比 C 语言要快。对于数据科学研究来说,开发速度远比运行时性能更重要。由于存在大量 API
、框架和包,Python
更受数据科学家和数据分析师的青睐,只是它在性能优化方面落后太多了。
2、多处理入门
考虑一个单核心 CPU
,如果它被同时分配多个任务,就必须不断地中断当前执行的任务并切换到下一个任务才能保持所有进程正常运行。对于多核处理器来说,CPU
可以在不同内核中同时执行多个任务,这一概念被称为并行处理。
3、它为什么如此重要?
数据整理、特征工程和数据探索都是数据科学模型开发管道中的重要元素。在输入机器学习模型之前,原始数据需要做工程处理。对于较小的数据集来说,执行过程只需几秒钟就能完成;但对于较大的数据集而言,这项任务就比较繁重了。
并行处理是提高 Python
程序性能的一种有效方法。Python
有一个多处理模块,让我们能够跨 CPU
的不同内核并行执行程序。
4、实现
我们将使用来自 multiprocessing
模块的 Pool
类,针对多个输入值并行执行一个函数。这个概念称为数据并行性,它是 Pool
类的主要目标。
我将使用从
Kaggle
下载的Quora
问题对相似性数据 集来演示这个模块。
上述数据集包含了很多在 Quora
平台上提出的文本问题。我将在一个 Python
函数上执行多处理模块,这个函数通过删除停用词、删除 HTML 标签、删除标点符号、词干提取等过程来处理文本数据。
preprocess()
就是执行上述文本处理步骤的函数。
可以在 这里 找到托管在我的 GitHub
上的函数 preprocess()
的代码片段。
现在,我们使用 multiprocessing
模块中的 Pool
类为数据集的不同块并行执行该函数。数据集的每个块都将并行处理。
import multiprocessing
from functools import partial
from QuoraTextPreprocessing import preprocess
BUCKET_SIZE = 50000
def run_process(df, start):
df = df[start:start+BUCKET_SIZE]
print(start, "to ",start+BUCKET_SIZE)
temp = df["question"].apply(preprocess)
chunks = [x for x in range(0,df.shape[0], BUCKET_SIZE)]
pool = multiprocessing.Pool()
func = partial(run_process, df)
temp = pool.map(func,chunks)
pool.close()
pool.join()
该数据集有 537,361
条记录(文本问题)需要处理。对于 50,000
的桶大小,数据集被分成 11 个较小的数据块,这些块可以并行处理以加快程序的执行时间。
5、基准测试
人们常问的问题是使用多处理模块后执行速度能快多少。我在实现了数据并行性,对整个数据集执行一次 preprocess()
函数后对比了基准执行时间。
运行测试的机器有 64GB 内存和 10 个 CPU 内核。
多处理和单处理执行的基准时间:
从上图中,我们可以观察到 Python
函数的并行处理将执行速度提高了近 30
倍。
我们可以在我的
GitHub
中找到用于记录基准测试数据的Python
文件。
基准测试过程:
结 论:
在本文中,我们讨论了 Python
中多处理模块的实现,该模块可用于加速 Python
函数的执行。添加几行多处理代码后,具有 537k 实例的数据集的执行时间几乎快了 30 倍。
处理大型数据集的时候,我建议大家使用并行处理,因为它可以节省大量时间并加快工作流程。
来源:https://zhuanlan.zhihu.com/p/408371071
猜你喜欢
- 目录题目描述示例 1:示例 2:示例 3:单向构造(哈希表计数)双向构造(双指针)最后题目描述这是 LeetCode 上的 1743. 从相
- 在Https页面中,如果iframe所引入页面是非https协议的页面,或者src属性不存在都可能导致浏览器弹出安全警告。本人在网上查找相关
- 水仙花数是指一个 3位正整数,它的每个位上的数字的 3 次幂之和等于它本身。(例如:1^3 + 5^3+ 3^3 = 153)下面用一句代码
- 1000块钱做个百度?能提出这种要求的客户实乃乙方克星、民族之光、科创永动机、西虹市一大杰出青年,诺奖永远得不到的人才。但作为一个硬核的程序
- 看代码吧~import numpy as npa = np.array([[2, 4, 6, 1], [1, 5, 2, 9]])print
- 大家都知道在Dreamwerver中可以很方便地实现记录集的分页显示,但是生成的代码的确很庞大,影响了网页的显示速度,看起来条理也不是很清晰
- 问题你想根据一组语法规则解析文本并执行命令,或者构造一个代表输入的抽象语法树。 如果语法非常简单,你可以不去使用一些框架,而是自己写这个解析
- 最近写毕业设计遇到一个问题,就是我从一个txt文件中逐个读取字符,并修改其中的内容后存到另一个txt文件中,如下图:字符替换规则是把所有的0
- 一、选择文件夹首先导入PySimpleGUI库,并且用缩写sg来表示。import PySimpleGUI as sg# 窗口显示文本框和浏
- 安装pip install faker使用简单使用本库可生成姓名、地址、电话、邮箱、公司等等一系列数据。首先导入库,实例化:from fak
- 单下划线与双下划线在 python 中,会看到 _xx, xx 以及 __xx 这样的变量或者函数名,在这里做一个简要的总结。_xx:保护(
- 1、首先计算MD5加密的二进制数组(128位),然后再对这个二进制数组进行base64编码(而不是对32位字符串编码)。例如,用Python
- 我就废话不多说了,直接上代码吧!#coding=utf-8'''openCV中最核心的的类是Mat,他是matrix
- 目录一、字符串:二、使用:(1)空字符串和 len( ) 函数(2)转译字符( \ )(3)字符串拼接(4)字符串复制(
- 一、操作步骤导入:import flask,json实例化:api = flask.Flask(name)定义接口访问路径及访问方式:@ap
- 之前写了一个ajax上传工具。但是只是客户端的工具是我写的,服务器端的那个程序,我是修改了一个网上流传的无组件上传类。因为当时我还不懂什么a
- 对于Python开发用户来讲,安装第三方库是家常便饭,下面提供两种安装方式pycharm软件安装1.打开file>setting2.点
- 本文实例讲述了Python中pygame的mouse鼠标事件用法。分享给大家供大家参考,具体如下:pygame.mouse提供了一些方法获取
- 前言原子操作这是Java多线程编程的老生常谈了。所谓原子操作是指不会被线程调度机制打断的操作;这种操作一旦开始,就一直运行到结束,中间不会有
- 项目结构:源代码:# -*- coding: utf-8 -*-"""@date: 2022/01