网络编程
位置:首页>> 网络编程>> Python编程>> Python3多线程爬虫实例讲解代码

Python3多线程爬虫实例讲解代码

作者:pythontab  发布时间:2021-01-10 21:45:28 

标签:Python,多线程,爬虫

多线程概述

多线程使得程序内部可以分出多个线程来做多件事情,充分利用CPU空闲时间,提升处理效率。python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补。并且在Python3中废弃了thread模块,保留了更强大的threading模块。

使用场景

在python的原始解释器CPython中存在着GIL(Global Interpreter Lock,全局解释器锁),因此在解释执行python代码时,会产生互斥锁来限制线程对共享资源的访问,直到解释器遇到I/O操作或者操作次数达到一定数目时才会释放GIL。所以,虽然CPython的线程库直接封装了系统的原生线程,但CPython整体作为一个进程,同一时间只会有一个获得GIL的线程在跑,其他线程则处于等待状态。这就造成了即使在多核CPU中,多线程也只是做着分时切换而已。

如果你的程序是CPU密集型,多个线程的代码很有可能是线性执行的。所以这种情况下多线程是鸡肋,效率可能还不如单线程因为有上下文切换开销。但是如果你的代码是IO密集型,涉及到网络、磁盘IO的任务都是IO密集型任务,多线程可以明显提高效率,例如多线程爬虫,多线程文件处理等等

多线程爬虫

多线程爬虫的代码实例

注: 以下代码在python3下运行通过, python2版本差异较大,不能运行成功,如需帮助请下方留意。


# coding=utf-8
import threading, queue, time, urllib
from urllib import request
baseUrl = 'http://www.pythontab.com/html/pythonjichu/'
urlQueue = queue.Queue()
for i in range(2, 10):
url = baseUrl + str(i) + '.html'
urlQueue.put(url)
#print(url)
def fetchUrl(urlQueue):
while True:
 try:
  #不阻塞的读取队列数据
  url = urlQueue.get_nowait()
  i = urlQueue.qsize()
 except Exception as e:
  break
 print ('Current Thread Name %s, Url: %s ' % (threading.currentThread().name, url))
 try:
  response = urllib.request.urlopen(url)
  responseCode = response.getcode()
 except Exception as e:
  continue
 if responseCode == 200:
  #抓取内容的数据处理可以放到这里
  #为了突出效果, 设置延时
  time.sleep(1)
if __name__ == '__main__':
startTime = time.time()
threads = []
# 可以调节线程数, 进而控制抓取速度
threadNum = 4
for i in range(0, threadNum):
 t = threading.Thread(target=fetchUrl, args=(urlQueue,))
 threads.append(t)
for t in threads:
 t.start()
for t in threads:
 #多线程多join的情况下,依次执行各线程的join方法, 这样可以确保主线程最后退出, 且各个线程间没有阻塞
 t.join()
endTime = time.time()
print ('Done, Time cost: %s ' % (endTime - startTime))

运行结果:

1个线程时:


Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/2.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/3.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/4.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/5.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/6.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/7.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/8.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/9.html
Done, Time cost: 8.182249069213867

2个线程时:


Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/2.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/3.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/4.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/5.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/6.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/7.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/8.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/9.html
Done, Time cost: 4.0987958908081055

3个线程时:


Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/2.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/3.html
Current Thread Name Thread-3, Url: http://www.pythontab.com/html/pythonjichu/4.html
Current Thread Name Thread-4, Url: http://www.pythontab.com/html/pythonjichu/5.html
Current Thread Name Thread-2, Url: http://www.pythontab.com/html/pythonjichu/6.html
Current Thread Name Thread-4, Url: http://www.pythontab.com/html/pythonjichu/7.html
Current Thread Name Thread-1, Url: http://www.pythontab.com/html/pythonjichu/9.html
Current Thread Name Thread-3, Url: http://www.pythontab.com/html/pythonjichu/8.html
Done, Time cost: 2.287320137023926

通过调节线程数可以看到,执行时间会随着线程数的增加而缩短,抓取效率成正比增加。

总结:

Python多线程在IO密集型任务,多线程可以明显提高效率,CPU密集型任务不适合使用多线程处理。

来源:http://www.pythontab.com/html/2018/pythonhexinbiancheng_0103/1215.html

0
投稿

猜你喜欢

  • 本文实例为大家分享了PHP文件操作的具体代码,供大家参考,具体内容如下(1)文件读取file_get_contents( )实例:<?
  • 为数据库配置比较大的内存,可以有效提高数据库性能。因为数据库在运行过程中,会在内存中划出一块区域来作为数据缓存。通常情况下,用户访问数据库时
  • 最近自己在抢冰墩墩钥匙扣,发现一秒瞬间就没了。于是自己网上学习了一下,写了一个抢购脚本。亲测可用。具体使用步骤如下:一、官网下载火狐浏览器二
  • 这种问题估计遇到的人不在少数,至少我遇到不下三次了,但每次解决后都没有形成深刻的印象,每次遇到还需要思考很久才能解决。这种情况常见的是这样的
  • 本文实例讲述了Python迭代器与生成器基本用法。分享给大家供大家参考,具体如下:迭代器可以进行for循环的数据类型包括以下两种:1. 集合
  • 下午的时候,配好了OpenCV的Python环境,OpenCV的Python环境搭建。于是迫不及待的想体验一下opencv的人脸识别,如下文
  • PHP _construct() 函数实例函数创建一个新的 SimpleXMLElement 对象,然后输出 body 节点的内容:<
  • 一、需求1.获取你对象chrome前一天的浏览记录中的所有网址(url)和访问时间,并存在一个txt文件中2.将这个txt文件发送给指定的邮
  • 前言使用Python写过面向对象的代码的同学,可能对 __init__ 方法已经非常熟悉了,__init__方法在类的一个对象被建立时,马上
  • 本文实例讲述了朴素贝叶斯算法的python实现方法。分享给大家供大家参考。具体实现方法如下:朴素贝叶斯算法优缺点优点:在数据较少的情况下依然
  • 机器学习可应用在各个方面,本篇将在系统性进入机器学习方向前,初步认识机器学习,利用线性回归预测波士顿房价;原理简介利用线性回归最简单的形式预
  • 我设了两个SESSION:SESSION(A1),SESSION(A2),然后我现在想结束其中一个SESSION(如:ESEEION(A1)
  • 对python3下的requests使用并不是很熟练,今天稍微用了下,请求几次下来后发现出现连接超时的异常,上网查了下,找到了一个还算中肯的
  • 目录一、代码分析二、完整代码写在最后想必写毕设的时候,大家都会遇到一个问题,那就是得在明评版的论文里面插入一个独创性声明。就因为这个事情,我
  • 说明Django 默认的用户表 auth_user 包含 id, password, last_login, is_superuser, u
  • 这篇文章主要介绍了Python 切分数组实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以
  • Python中默认安装的ftplib模块定义了FTP类,其中函数有限,可用来实现简单的ftp客户端,用于上传或下载文件.FTP的工作流程及基
  • 本文实例讲述了Python实现的对一个数进行因式分解操作。分享给大家供大家参考,具体如下:在数学中,我们可能会对一个数进行因式分解,如何用P
  • 昨天我突发奇想,想用display:inline来实现三列的布局可是搞了半天就是不行。但是理论上是可以的呀(后来才发现是不理解的不深刻,我的
  • 目前两个客户端扩展库连接超时可以设置选项来操作,比如mysqli: <?php //创建对象 $mysqli = mysqli_ini
手机版 网络编程 asp之家 www.aspxhome.com