位置：首页>> 网络编程>> Python编程>> Python Scrapy多页数据爬取实现过程解析

Python Scrapy多页数据爬取实现过程解析

作者：Hedger_Lee　　发布时间：2021-02-28 08:14:01　

标签：Python,Scrapy,爬取

1.先指定通用模板

url = 'https://www.qiushibaike.com/text/page/％d/'#通用的url模板
pageNum = 1

2.对parse方法递归处理

parse第一次调用表示的是用来解析第一页对应页面中的数据

对后面的页码的数据要进行手动发送

if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url％self.pageNum)
#手动请求(get)的发送
yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.qiushibaike.com/text/']

url = 'https://www.qiushibaike.com/text/page/％d/'#通用的url模板
pageNum = 1
#parse第一次调用表示的是用来解析第一页对应页面中的段子内容和作者
def parse(self, response):
div_list = response.xpath('//*[@id="content-left"]/div')
all_data = []
for div in div_list:
author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)

# 将解析的数据存储到item对象
item = QiubaiproItem()
item['author'] = author
item['content'] = content

# 将item提交给管道
yield item # item一定是提交给了优先级最高的管道类

if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url％self.pageNum)
#手动请求(get)的发送
yield scrapy.Request(new_url,callback=self.parse)

来源：https://www.cnblogs.com/Hedger-Lee/p/13072506.html

0

投稿

猜你喜欢

在Python上基于Markov链生成伪随机文本的教程
首先看一下来自Wolfram的定义马尔可夫链是随机变量{X_t}的集合（t贯穿0,1,..
关于字体的一些思考
字体的处理在网页设计中无论怎么强调也不为过，毕竟网页使用来传递信息的，而最经典最直接的信息传递方式就是文字，&nbs
深入研究ASP中的Session
内容摘要：首先来讲讲 Session 的好处，它可以用来记录客户端私有的
基于python的selenium两种文件上传操作实现详解
方法一、input标签上传如果是input标签，可以直接输入路径，那么可以直接调用send_keys输入路径，这里不做过多赘述，前文有相关操
通过底层源码理解YOLOv5的Backbone
YOLOv5的Backbone设计在上一篇文章《YOLOV5的anchor设定》中我们讨论了anchor的产生原理和检测过程，对YOLOv5
python pandas库的安装和创建
pandas 对于数据分析的人员来说都是必须熟悉的第三方库，pandas 在科学计算上有很大的优势，特别是对于数据分析人员来说，相当的重要。
PHP实现网页内容html标签补全和过滤的方法小结【2种方法】
本文实例讲述了PHP实现网页内容html标签补全和过滤的方法。分享给大家供大家参考，具体如下：如果你的网页内容的html标签显示不全,有些表
python学生管理系统代码实现
本文实例为大家分享了python学生管理系统的具体代码，供大家参考，具体内容如下类class Student: stuID = "
Django的models模型的具体使用
model的常用字段V=models.CharField(max_length=None[, **options])#varcharV=mo
Django1.9 加载通过ImageField上传的图片方法
这里假设你是通过models的ImageField上传图片，并期望在前台img标签中能显示。能否访问图片关键在于，是否能通过正确的路径访问。
如何判断pytorch是否支持GPU加速
加上这句代码：print torch.cuda.is_available()判断完毕！说说在pytorch中如何查看gpu信息吧~为什么将数
原生js+css调节音量滑块
本文实例为大家分享了js调节音量滑块的具体代码，供大家参考，具体内容如下效果html部分<body><div class=
python四则运算表达式求值示例详解
四则运算表达式求值思路说明使用双栈来实现——存放数值的栈 nums 与存放运算符
python 多进程并行编程 ProcessPoolExecutor的实现
使用 ProcessPoolExecutorfrom concurrent.futures import ProcessPoolExecut
Vue组件之事件总线和消息发布订阅详解
简介主要介绍事件总线的定义和编写方法和Vue是如何实现消息的订阅与发布的。事件总线事件总线是组件间通信的一种方式，适用于任意组件间的通信，比
python使用socket进行简单网络连接的方法
本文实例讲述了python使用socket进行简单网络连接的方法。分享给大家供大家参考。具体如下：import socketprint &q
如何让12px以下的文字最佳显示
我们平常在网页上显示的字体最小一般是12PX，当小于10PX时，显示的效果就大打折扣了，因为中文默认的字体是宋体，当小于12PX时的效果如下
使用Python实现Wake On Lan远程开机功能
Wake-On-LAN简称WOL，是一种电源管理功能；如果存在网络活动，则允许设备将操作系统从待机或休眠模式中唤醒。许多主板厂商支持IBM提
flask route对协议作用及设计思路
引言本文主要梳理了flask源码中route的设计思路。首先，从WSGI协议的角度介绍flask route的作用；其次，详细讲解如何借助w
python基于pygame实现飞机大作战小游戏
基于pygame的飞机大作战小游戏，适合新手，不能直接运行，只能在命令行进入当前游戏目录，输入python game.py才能够运行，尚不知

Pytorch中的backward()多个loss函数用法

python中的测试框架

使用Python绘制图表大全总结

python3音乐播放器简单实现代码

python实现删除文件与目录的方法

对python-3-print重定向输出的几种方法总结

Python实现感知机（PLA）算法

python中单双下划线的区别对比分析

Tensorflow加载模型实现图像分类识别流程详解

利用pip安装python第三方库的4种方法

如何在网页中制作虚线表格

Win7系统打不开网页如何解决？

微信公众号支付（一）如何获取用户openId

WPS excel如何调整工作表打印页面设置

手机嘎嘎如何设置加好友权限手机嘎嘎设置加好友权限的教程

Word 2007怎么恢复未保存文档

轩辕剑龙舞云山时装好看吗？新时装获取办法介绍

Luminar Neo 教程「56」，如何在 Luminar Neo 中将图像放入收藏夹？

Win10电脑任务栏怎么取消向上的箭头？取消任务栏向上的箭头方法

Java面试题冲刺第二十四天--并发编程

手机版 网络编程 asp之家 www.aspxhome.com