热门问题python爬虫的效率如何提高
作者:Python 技术 发布时间:2023-06-11 03:21:40
文 | 闲欢
来源:Python 技术「ID: pythonall」
今天在浏览知乎时,发现一个有趣的问题:如何优化 Python 爬虫的速度?
他的问题描述是:
目前在写一个 Python 爬虫,单线程 urllib 感觉过于慢了,达不到数据量的要求(十万级页面)。求问有哪些可以提高爬取效率的方法?
这个问题还蛮多人关注的,但是回答的人却不多。
我今天就来尝试着回答一下这个问题。
程序提速这个问题其实解决方案就摆在那里,要么通过并发来提高单位时间内处理的工作量,要么从程序本身去找提效点,比如爬取的数据用gzip传输、提高处理数据的速度等。
我会分别从几种常见的并发方法去做同一件事情,从而比较处理效率。
简单版本爬虫
我们先来一个简单的爬虫,看看单线程处理会花费多少时间?
import time
import requests
from datetime import datetime
def fetch(url):
r = requests.get(url)
print(r.text)
start = datetime.now()
t1 = time.time()
for i in range(100):
fetch('http://httpbin.org/get')
print('requests版爬虫耗时:', time.time() - t1)
# requests版爬虫耗时:54.86306357383728
我们用一个爬虫的测试网站,测试爬取100次,用时是54.86秒。
多线程版本爬虫
下面我们将上面的程序改为多线程版本:
import threading
import time
import requests
def fetch():
r = requests.get('http://httpbin.org/get')
print(r.text)
t1 = time.time()
t_list = []
for i in range(100):
t = threading.Thread(target=fetch, args=())
t_list.append(t)
t.start()
for t in t_list:
t.join()
print("多线程版爬虫耗时:", time.time() - t1)
# 多线程版爬虫耗时:0.8038511276245117
我们可以看到,用上多线程之后,速度提高了68倍。其实用这种方式的话,由于我们并发操作,所以跑100次跟跑一次的时间基本是一致的。这只是一个简单的例子,实际情况中我们不可能无限制地增加线程数。
多进程版本爬虫
除了多线程之外,我们还可以使用多进程来提高爬虫速度:
import requests
import time
import multiprocessing
from multiprocessing import Pool
MAX_WORKER_NUM = multiprocessing.cpu_count()
def fetch():
r = requests.get('http://httpbin.org/get')
print(r.text)
if __name__ == '__main__':
t1 = time.time()
p = Pool(MAX_WORKER_NUM)
for i in range(100):
p.apply_async(fetch, args=())
p.close()
p.join()
print('多进程爬虫耗时:', time.time() - t1)
多进程爬虫耗时: 7.9846765995025635
我们可以看到多进程处理的时间是多线程的10倍,比单线程版本快7倍。
协程版本爬虫
我们将程序改为使用 aiohttp 来实现,看看效率如何:
import aiohttp
import asyncio
import time
async def fetch(client):
async with client.get('http://httpbin.org/get') as resp:
assert resp.status == 200
return await resp.text()
async def main():
async with aiohttp.ClientSession() as client:
html = await fetch(client)
print(html)
loop = asyncio.get_event_loop()
tasks = []
for i in range(100):
task = loop.create_task(main())
tasks.append(task)
t1 = time.time()
loop.run_until_complete(main())
print("aiohttp版爬虫耗时:", time.time() - t1)
aiohttp版爬虫耗时: 0.6133313179016113
我们可以看到使用这种方式实现,比单线程版本快90倍,比多线程还快。
结论
通过上面的程序对比,我们可以看到,对于多任务爬虫来说,多线程、多进程、协程这几种方式处理效率的排序为:aiohttp > 多线程 > 多进程。因此,对于简单的爬虫任务,如果想要提高效率,可以考虑使用协程。但是同时也要注意,这里只是简单的示例,实际运用中,我们一般会用线程池、进程池、协程池去操作。
这就是问题的答案了吗?
对于一个严谨的程序员来说,当然不是,实际上还有一些优化的库,例如grequests,可以从请求上解决并发问题。实际的处理过程中,肯定还有其他的优化点,这里只是从最常见的几种并发方式去比较而已,应付简单爬虫还是可以的,其他的方式欢迎大家在评论区留言探讨。
来源:https://blog.csdn.net/weixin_48923393/article/details/120944769
猜你喜欢
- 首先,我们看看models.py里的模型,有个upload_to参数,为了和过去一刀两断,楼主决定给upload_to赋值一个新的值叫ava
- 多个if语句是每次单独判断比如:例子一a = 5if a < 6: #条件1 &
- 天我们看看import的有关内容。编程时总是用到import导入,动不动就导入,很简单,但import到底是个什么功能,它的本质是什么?一.
- 双向链表的基本操作的实现,供大家参考,具体内容如下在之前的博客中介绍了三种链表,分别是单链表、单向循环链表以及双向链表。本篇博客将用Pyth
- Python 实现tuple和list的转换1.list列表转换为tuple元组temp_list = [1,2,3,4,5]print(t
- 可能不少学习javascript在使用call,apply,callee时会感到困惑,以下希望对于你有所帮助:1、它是函数的方法或属性;2、
- 爬一个网页时,要保存的数据都没有encode,就导致保存下来的中文都变成unicode了。。。那么,怎么把一个表示字符串的unicode还原
- 一、简介pydantic 库是 python 中用于数据接口定义检查与设置管理的库。pydantic 在运行时强制执行类型提示,并在数据无效
- 如代码1所示: // 代码 1 // 外观层类 class LWordHomePage { // 添加留言 public function
- 也许你听说过Hibernate的大名,但可能一直不了解它,也许你一直渴望使用它进行开发,那么本文正是你所需要的!在本文中,我向大家重点介绍H
- 当我们的程序报错时,解释器会将整个异常的堆栈信息全部输出出来,举个例子:def foo(): &
- javascript版 俄罗斯方块(Russian box)小游戏,喜欢的朋友可以玩玩。对源代码感兴趣的朋友也可以研究一下。玩法介绍:可以输
- 本文实例分析了CI框架出现mysql数据库连接资源无法释放的解决方法。分享给大家供大家参考,具体如下:使用ci框架提供的类查询数据:$thi
- 为什么使用Python 假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从19
- 本文实例讲述了Python面向对象之类的定义与继承用法。分享给大家供大家参考,具体如下:定义一个类类中的方法同,类外方法,默认传self值类
- 本文实例为大家分享了python实现微信消息防撤回的具体代码,供大家参考,具体内容如下使用了sqlite3保存数据,当有人撤回消息时取出数据
- 相信大家在微信上一定被上面的这段话刷过屏,群发消息应该算是微信上流传最广的找到删除好友的方法了。但群发消息不仅仅会把通讯录里面所有的好友骚扰
- 本文讨论 MySQL 的备份和恢复机制,以及如何维护数据表,包括最主要的两种表类型:MyISAM 和 Innodb,文中设计的 MySQL
- 本文实例讲述了Python3实现取图片 * 定的像素替换指定的颜色。分享给大家供大家参考,具体如下:1、原始图片2、修改脚本:# -*- co
- 使用 types 增强vscode中javascript代码提示功能微软的vscode编辑器是开发typescript项目的不二首选,其本身