位置：首页>> 网络编程>> Python编程>> Scrapy爬虫文件批量运行的实现

Scrapy爬虫文件批量运行的实现

作者：SteveForever　　发布时间：2022-04-25 18:29:57　

标签：Scrapy,批量运行

Scrapy批量运行爬虫文件的两种方法：

1、使用CrawProcess实现

https://doc.scrapy.org/en/latest/topics/practices.html

2、修改craw源码+自定义命令的方式实现

（1）我们打开scrapy.commands.crawl.py 文件可以看到：

def run(self, args, opts):
if len(args) < 1:
raise UsageError()
elif len(args) > 1:
raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")
spname = args[0]

self.crawler_process.crawl(spname, **opts.spargs)
self.crawler_process.start()

这是crawl.py 文件中的run() 方法，在此可以指定运行哪个爬虫，要运行所有的爬虫，则需要更改这个方法。

run() 方法中通过crawler_process.crawl(spname, **opts.spargs) 实现了爬虫文件的运行，spname代表爬虫名。要运行多个爬虫文件，首先要获取所有的爬虫文件，可以通过crawler_process.spider_loader.list() 实现。

（2）实现过程：

a、在spider目录的同级目录下创建存放源代码的文件夹mycmd，并在该目录下创建文件mycrawl.py；

b、将crawl.py 中的代码复制到mycrawl.py 文件中，然后进行修改：

#修改后的run() 方法
def run(self, args, opts):
#获取爬虫列表
spd_loader_list = self.crawler_process.spider_loader.list()
#遍历各爬虫
for spname in spd_loader_list or args:
self.crawler_process.crawl(spname, **opts.spargs)
print("此时启动的爬虫："+spname)
self.crawler_process.start()

同时可以修改：

def short_desc(self):
return "Run all spider"

c、在mycmd文件夹下添加一个初始化文件__init__.py，在项目配置文件（setting.py）中添加格式为“COMMANDS_MODULES='项目核心目录.自定义命令源码目录'”的配置；

例如：COMMANDS_MODULE = 'firstpjt.mycmd'

随后通过命令“scrapy -h”，可以查看到我们添加的命令mycrawl

这样，我们就可以同时启动多个爬虫文件了，使用命令：

scrapy mycrawl --nolog

来源：https://blog.csdn.net/SteveForever/article/details/81607018

0

投稿

猜你喜欢

element-UI el-table树形数据修改小三角图标方式
element-UI el-table树形数据修改小三角图标el-table树形数据默认样式有下级没展开是▸ 有下级展开了是▾ 没有下级
使用python批量修改文件名的方法(视频合并时)
不知道大家有没有遇到这样的情况，比如视频合并时文件名没有按照正常顺序排列，像这样可见，文件名排序是乱的。这个样子合并
python遍历迭代器自动链式处理数据的实例代码
python遍历迭代器自动链式处理数据pytorch.utils.data可兼容迭代数据训练处理，在dataloader中使用提高训练效率：
python通过exifread模块获得图片exif信息的方法
本文实例讲述了python通过exifread模块获得图片exif信息的方法。分享给大家供大家参考。具体分析如下：python可通过exif
简单介绍Python的轻便web框架Bottle
基本映射映射使用在根据不同URLs请求来产生相对应的返回内容.Bottle使用route() 修饰器来实现映射.from bottle im
pytorch 查看cuda 版本方式
由于pytorch的whl 安装包名字都一样，所以我们很难区分到底是基于cuda 的哪个版本。有一条指令可以查看import torchpr
网页的栅格设计思考
网页设计中的脏、乱、差，是我们在设计过程中常会遇到的问题。通常"脏"是由对色彩使用不当所产生的，而色彩使用不当产生的不好
MySQL学习笔记1：安装和登录(多种方法)
今天开始学习数据库，由于我对微软不怎么感冒，所以就不用他家的产品了本来想装ORACLE的，不过太大了，看着害怕对于我这种喜欢一切从简的人来说
MySQL数据库中应当如何实施info()函数
执行表扫描操作之前，将调用info()函数，以便为优化程序提供额外信息。优化程序所需的信息不是通过返回值给定的，你需填充存储引擎类的特定属性
Python设计模式之抽象工厂模式
python面向对象编程入门，我们需要不断学习进步"""抽象工厂模式的实现"""
vue+elementui+vuex+sessionStorage实现历史标签菜单的示例代码
一般是有左侧菜单后，然后要在页面上部分添加历史标签菜单需求。借鉴其他项目，以及网上功能加以组合调整实现按照标签实现方式步骤来（大致思路）：1
Django中URL视图函数的一些高级概念介绍
说到关于请求方法的分支，让我们来看一下可以用什么好的方法来实现它。考虑这个 URLconf/view 设计:# urls.pyfrom d
Python3爬虫学习之爬虫利器Beautiful Soup用法分析
本文实例讲述了Python3爬虫学习之爬虫利器Beautiful Soup用法。分享给大家供大家参考，具体如下：爬虫利器Beautiful
如何在2003系统注册fso组件
1、首先在系统盘中查找scrrun.dll，如果存在这个文件，请跳到第三步，如果没有，请执行第二步。 2、在安装文件目录i386中找到scr
Python实现简单截取中文字符串的方法
本文实例讲述了Python实现简单截取中文字符串的方法。分享给大家供大家参考。具体如下：web应用难免会截取字符串的需求,Python中截取
基于Python中isfile函数和isdir函数使用详解
Python编程语言判断是否是目录在Python编程语言中可以使用os.path.isdir()函数判断某一路径是否为目录。其函数原型如下所
深入理解JS中的substr和substring
substr 方法返回一个从指定位置开始的指定长度的子字符串。 stringvar.substr(start [, length ]) 参
微软的jQuery国际化插件
上个月，我写了一篇关于微软如何在向jQuery贡献代码的文章，也谈到了在第一批贡献的代码中的一些功能：jQuery模板和数据链接支持.今天，
Golang官方限流器time/rate的使用与实现详解
常见的限流算法固定窗口计数器算法固定窗口计数器算法将时间分为固定大小的窗口，例如1秒。在每个窗口中，服务会记录它接收到的请求数。如果在一个窗
详解如何使用Python操作MySQL的各种功能
当今互联网时代，数据处理已经成为了一个非常重要的任务。而MySQL作为一款开源的关系型数据库，被广泛应用于各种场景。本篇博客将介绍如何使用P

django迁移文件migrations的实现

如何将PySpark导入Python的放实现(2种)

Windows自动执行python脚本操作步骤

基python实现多线程网页爬虫

基于pycharm 项目和项目文件命名规则的介绍

Python入门教程(四十一)Python的NumPy数组索引

python检查目录文件权限并修改目录文件权限的操作

opencv实现简单人脸识别

Python使用ctypes调用C/C++的方法

Python打包模块wheel的使用方法与将python包发布到PyPI的方法详解

显示最大/最小/平均值的组合excel图表

最强蜗牛7月22日密令是什么

iOS 11.2.5 beta1值得更新吗？如何升级iOS 11.2.5 beta1

excel sumifs函数求和为0的原因解决方法 sumifs函数多条件匹配

Win10如何重装小娜？Win10重装小娜的方法

django admin管理工具自定义时间区间筛选器DateRangeFilter介绍

Excel怎么制作成对条形图（旋风图）

地下城割草追踪器怎么合成

Android自定义圆环倒计时控件

Excel 单元格的引用方法

手机版 网络编程 asp之家 www.aspxhome.com