python利用多线程+队列技术爬取中介网互联网网站排行榜
作者:??梦想橡皮擦???? 发布时间:2023-05-19 08:17:21
标签:python,线程,队列,爬取
目标站点分析
本次要抓取的目标站点为:中介网,这个网站提供了网站排行榜、互联网网站排行榜、中文网站排行榜等数据。
网站展示的样本数据量是 :58341。
采集页面地址为 https://www.zhongjie.com/top/rank_all_1.html
,
UI如下所示:
由于页面存在一个【尾页】超链接,所以直接通过该超链接获取累计页面即可。
其余页面遵循简单分页规则:
https://www.zhongjie.com/top/rank_all_1.html
https://www.zhongjie.com/top/rank_all_2.html
基于此,本次Python爬虫的解决方案如下,页面请求使用 requests
库,页面解析使用 lxml
,多线程使用 threading
模块,队列依旧采用 queue
模块。
编码时间
在正式编码前,先通过一张图将逻辑进行梳理。
本爬虫编写步骤文字描述如下:
预先请求第一页,解析出总页码;
通过生产者不断获取域名详情页地址,添加到队列中;
消费者函数从队列获取详情页地址,解析目标数据。
总页码的生成代码非常简单
def get_total_page():
# get_headers() 函数,可参考开源代码分享数据
res = requests.get(
'https://www.zhongjie.com/top/rank_all_1.html', headers=get_headers(), timeout=5)
element = etree.HTML(res.text)
last_page = element.xpath("//a[@class='weiye']/@href")[0]
pattern = re.compile('(\d+)')
page = pattern.search(last_page)
return int(page.group(1))
总页码生成完毕,就可以进行多线程相关编码,本案例未编写存储部分代码,留给你自行完成啦,
完整代码如下所示:
from queue import Queue
import time
import threading
import requests
from lxml import etree
import random
import re
def get_headers():
uas = [
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
"Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)"
]
ua = random.choice(uas)
headers = {
"user-agent": ua
}
return headers
def get_total_page():
res = requests.get(
'https://www.zhongjie.com/top/rank_all_1.html', headers=get_headers(), timeout=5)
element = etree.HTML(res.text)
last_page = element.xpath("//a[@class='weiye']/@href")[0]
pattern = re.compile('(\d+)')
page = pattern.search(last_page)
return int(page.group(1))
# 生产者
def producer():
while True:
# 取一个分类ID
url = urls.get()
urls.task_done()
if url is None:
break
res = requests.get(url=url, headers=get_headers(), timeout=5)
text = res.text
element = etree.HTML(text)
links = element.xpath('//a[@class="copyright_title"]/@href')
for i in links:
wait_list_urls.put("https://www.zhongjie.com" + i)
# 消费者
def consumer():
while True:
url = wait_list_urls.get()
wait_list_urls.task_done()
if url is None:
break
res = requests.get(url=url, headers=get_headers(), timeout=5)
text = res.text
element = etree.HTML(text)
# 数据提取,更多数据提取,可自行编写 xpath
title = element.xpath('//div[@class="info-head-l"]/h1/text()')
link = element.xpath('//div[@class="info-head-l"]/p[1]/a/text()')
description = element.xpath('//div[@class="info-head-l"]/p[2]/text()')
print(title, link, description)
if __name__ == "__main__":
# 初始化一个队列
urls = Queue(maxsize=0)
last_page = get_total_page()
for p in range(1, last_page + 1):
urls.put(f"https://www.zhongjie.com/top/rank_all_{p}.html")
wait_list_urls = Queue(maxsize=0)
# 开启2个生产者线程
for p_in in range(1, 3):
p = threading.Thread(target=producer)
p.start()
# 开启2个消费者线程
for p_in in range(1, 2):
p = threading.Thread(target=consumer)
p.start()
来源:https://juejin.cn/post/7079964924385968135


猜你喜欢
- var p="",s="4e00"; for( var i=0;i<255;i++){ p+=
- 1、取得控制台应用程序的根目录方法 方法1、Environment.CurrentDirectory 取得或设置当前工作目录的完整限定路径
- 我就废话不多说了,大家还是直接看代码吧!import requestsimport jsonraw = {}headers中添加上conte
- 步骤创建 vue 的脚手架npm install -g @vue/clivue init webpack绑定 git 项目cd existi
- 如何用拦截表单的方法上传图片? 看下列代码:<script language="
- 本文实例讲述了python中引用与复制用法。分享给大家供大家参考。具体分析如下:在python中,任何不可变对象是传值的,而可变对象是传引用
- 引言之前有段时间用postgresql 数据库,在上云之后,从自增主键变为uuid,感觉uuid全球唯一,很方便。最近用mysql,发现my
- 作者:Jahongir Rahmonov机器之心编译参与:魔王PyCharm 是一种 Python IDE,可以帮助程序员节约时间,提高生产
- 前段时间我编写了一个工业控制的软件,在使用中一直存在一个问题,就是当软件检索设备时,因为这个功能执行的时间比较长,导致GUI界面假死,让用户
- SQL Server 2005 远程连接配置TCP/IP属性.Surface Area Configuration –> Databa
- 阅读上一章:Chapter 8 再谈清单Chapter 9 精简标签先前我们不断提到结构化内容能够把结构与设计细节分类并精简标签,该怎么做呢
- 进行NodeJs开发时偶然发现的一个雷点正常情况下从JSON文件读取到字符后再通过JSON.parse没什么问题,只要格式不出错有时在确保J
- class MyClass(): # 直接将属性定义在类中,这种属性称为 类属性 # 类属性可以通过实列对象和类对象
- 安装sql2000时出现以前的某个程序安装已在安装计算机上创建挂起的文件操作。运行安装程序之前必须重新启动计算机。 安装sql2000是,因
- 本文实例讲述了Python实现对不原生支持比较操作的对象排序算法。分享给大家供大家参考,具体如下:问题:想在同一个类的实例之间做排序,但是它
- 1.彻底弄懂CSS盒子模式一(DIV布局快速入门)3.彻底弄懂CSS盒子模式三(浮动的表演和清除的自述) 4.彻底弄懂CSS盒子模式四(绝对
- 基础类似于自定义指令,可以用全局方法 Vue.filter() 注册一个自定义过滤器,它接收两个参数:过滤器 ID 和过滤器函数。过滤器函数
- 1、引言选择排序里面主要讲了三个排序,分别是简单选择排序、树形选择排序、堆排序。今天这篇文章主要讲树形选择排序,树形选择排序也被称为锦标赛排
- 一、准备工作:1.建立一个 WINDOWS 用户,设置为管理员权限,并设置密码,作为发布快照文件的有效访问用户。2.在SQL SERVER下
- 最近一个项目中遇到ASP对FoxPro库表(*.DBF)的操作问题。现实中确有许多应用软件使