位置：首页>> 网络编程>> Python编程>> 如何向scrapy中的spider传递参数的几种方法

如何向scrapy中的spider传递参数的几种方法

作者：bluespacezero　　发布时间：2021-12-16 20:04:48　

标签：scrapy,spider,传递参数

有时需要根据项目的实际需求向spider传递参数以控制spider的行为，比如说，根据用户提交的url来控制spider爬取的网站。在这种情况下，可以使用两种方法向spider传递参数。

第一种方法，在命令行用crawl控制spider爬取的时候，加上-a选项，例如：

scrapy crawl myspider -a category=electronics

然后在spider里这样写：

import scrapy

class MySpider(scrapy.Spider):
name = 'myspider'

def __init__(self, category=None, *args, **kwargs):
super(MySpider, self).__init__(*args, **kwargs)
self.start_urls = ['http://www.example.com/categories/％s' ％ category]
# ...

也就是在spider的构造函数里加上带入的参数即可。

第二种方法，在用scrapyd控制spider的时候，可以向schedule.json发送-d选项加入参数，同样的，也需要在spider的构造函数里如上写法。例如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外，如果需要在scrapy发出的request上加入参数，可以使用request的meta参数，然后就可以相应的在返回的respose对象中获得传入的参数。这在某些情况下相当有用，比如说需要确定这个url是哪个用户请求爬取的，可以先用上面两种方法之一将信息传递给spider，spider就可以把这个信息加入到request中，然后在相应的reponse中就可以将这个信息与从url的页面中获得的信息一起存入数据库。例如：

def parse_page1(self, response):
item = MyItem()
item['main_url'] = response.url
request = scrapy.Request("http://www.example.com/some_page.html",
callback=self.parse_page2)
request.meta['item'] = item
return request

def parse_page2(self, response):
item = response.meta['item']
item['other_url'] = response.url
return item

来源：https://blog.csdn.net/Q_AN1314/article/details/50748700

0

投稿

猜你喜欢

SQL Server中多行多列连接成为单行单列
原始结构：Column1 Column2----------- ----------1 A1 B2 C2 D2 E3 F查询效果：Colum
Python Pyecharts绘制桑基图分析用户行为路径
桑基图，它的核心是对不同点之间，通过线来连接。线的粗细代表流量的大小。很多工具都能实现桑基图，比如：Excel、tableau，我们今天要用
如何防止未经注册的用户绕过注册界面直接进入应用系统？
我们可以利用Session对象来进行注册验证。Session对象会帮我们把某一用户的信息保留下来，让后续的网页读取。我们就可以在用户注册成功
详解用Python为直方图绘制拟合曲线的两种方法
直方图是用于展示数据的分组分布状态的一种图形，用矩形的宽度和高度表示频数分布，通过直方图，用户可以很直观的看出数据分布的形状、中心位置以及数
在python3环境下的Django中使用MySQL数据库的实例
我们在使用Django过程中，数据库往往是离不开的，比较长常用的是MySQL数据库，但在使用过程中，对Python不同的版本对用的库也不一样
Python的动态重新封装的教程
让我们描绘一下本文的情节：假设您要在本地机器上运行一个进程，而部分程序逻辑却在另一处。让我们特别假设这个程序逻辑会不时更新，而您运行进程时
一篇文章介绍redux、react-redux、redux-saga总结
本篇主要将react全家桶的产品非常精炼的提取了核心内容，精华程度堪比精油。各位大人，既然来了，客官您坐，来人，给客官看茶~~redux前言
python+matplotlib绘制3D条形图实例代码
本文分享的实例主要实现的是Python+matplotlib绘制一个有阴影和没有阴影的3D条形图，具体如下。首先看看演示效果：完整代码如下：
Python 数据结构之树的概念详解
数据结构树简介一、树简介树(Tree)是一种抽象的数据结构，是一个数据的集合，集合中的数据组成了一个树状结构。例如上图，看起来像一棵倒挂的树
Python Pillow Image.save 保存为jpg图片压缩问题
Pillow图片格式转换Pillow 库支持多种图片格式，您可以直接使用 open() 方法来读取图片，并且无须考虑图片是何种类型。Pill
Select 控件Combox加强版(IE Only)
概述:本控件使用 html+css+javascript模拟HTML内置的select元素，实现其部分方法与属性，也增加了一部分功能，并且从
Python实现的多线程端口扫描工具分享
昨晚今晚写了两晚，总算把Py Port Scanner 写完了，姑且称之为0.1版本，算是一个Python多线程端口扫描工具。水平有限，实话
鼠标驱动图片变化
<SCRIPT language="JavaScript"><!-- Beginfunction mo
Python Matplotlib基本用法详解
MatplotlibMatplotlib 是Python中类似 MATLAB 的绘图工具，熟悉 MATLAB 也可以很快的上手 Matplo
asp使用正则自动解析图片地址并保存
内容摘要：本文介绍了asp使用正则表达式自动解析远程图片地址并下载保存的方法，值得收藏！一、使用正则表达式Regexp匹配取得原页中的图片的
PL/SQL数据类型及操作符
标量(scalar)数据类型标量(scalar)数据类型没有内部组件，他们大致可分为以下四类：. number. character. da
5种禁用html页面的缓存方法
1。在Asp页面首部<head>加入 Response.Buffer =
关于搜索建议的两点小问题
最近在做搜索设计时，发现了两个容易纠结的小问题，在这里谈谈自己的一些分析。问题一：提交的关键字是哪个？凡客的这个例子中，搜索建议“时尚斜拉链
擦除式图片轮番显示效果
加在< head>中< SCRIPT LANGUAGE="JavaScript">//more
用python编写第一个IDA插件的实例
IDA插件是经过编译的、功能更强大的IDC脚本，与仅仅使用脚本相比，插件能够执行更加复杂的任务。与编写IDC脚本相比，python显得更为轻

详解Python中的数据清洗工具flashtext

详细总结Python常见的安全问题

Python使用re模块正则提取字符串中括号内的内容示例

python爬虫中采集中遇到的问题整理

python中list常用操作实例详解

用python下载百度文库的代码

Python 解析pymysql模块操作数据库的方法

python 使用事件对象asyncio.Event来同步协程的操作

python实现逆滤波与维纳滤波示例

Python3自定义http/https请求拦截mitmproxy脚本实例

最具代表性的平均值

excel2013怎么恢复批注?

C#实现骑士飞行棋

电脑系统运行缓慢如何解决

Excel中怎样能自动输入“今天”日期，不需要每天都输

iPad2使用iOS7.0.3太卡了怎么办

Java异常处理try catch的基本用法

watchOS 7 开发者测试版 Beta 5 发布，功能持续优化

Win10电脑音频服务未响应怎么办？

Win7旗舰版开启ahci模式蓝屏怎么解决？

手机版 网络编程 asp之家 www.aspxhome.com