Python爬虫框架Scrapy常用命令总结
作者:喷跑的豆子 发布时间:2022-02-21 20:45:23
本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:
在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令。
全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行
全局命令
全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h
,如图所示:
可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetch、runspider、settings、shell、startproject、version、view。
fetch命令
fetch命令主要用来显示爬虫爬取的过程.如下图所示:
在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h
列出所有可以使用的fetch相关参数。比如我们可以使用–headers显示头信息,也可以使用–nolog控制不显示日志信息,还可以使用–spider=SPIDER参数来控制使用哪个爬虫,通过–logfile=FILE指定存储日志信息的文件,通过–loglevel=LEVEL控制日志等级。举个栗子:
# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com
sunspider命令
通过runspider
命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件
# first.py为自定义的一个爬虫文件
scrapy runspider first.py
settings命令
在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息
# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME
shell命令
通过shell命令可以启动Scrapy的交互终端。
Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。
在>>>后面可以输入交互命令以及相应的代码
startproject命令
用于创建scrapy项目
version命令
查看scrapy版本
view命令
用于下载某个网页,然后通过浏览器查看
项目命令
bench命令
测试本地硬件的性能
scrapy bench
genspider命令
用于创建爬虫文件,这是一种快速创建爬虫文件的方式。
# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com
此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l
查看所有可用爬虫模板。当前可用的爬虫模板有:basic、crawl、csvfeed、xmlfeed
check命令
使用check命令可以实现对某个爬虫文件进行合同检查,即测试.
# xxx为爬虫名
scrapy check xxx
crawl命令
启动某个爬虫
# xxx为爬虫名
scrapy crawl xxx
list命令
列出当前可使用的爬虫文件
scrapy list
edit命令
编辑爬虫文件
scrapy edit xxx
parse命令
通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析
日志等级
等级名 | 含义 |
---|---|
CRITICAL | 发生了最严重的错误 |
ERROR | 发生了必须立即处理的错误 |
WARNING | 出现了一些警告信息,即存在潜在错误 |
INFO | 输出一些提示显示 |
DEBUG | 输出一些调试信息 |
希望本文所述对大家Python程序设计有所帮助。
来源:https://blog.csdn.net/y472360651/article/details/75194621
猜你喜欢
- 1. test.txt文件,数据以逗号分割,第一个数据为x坐标,第二个为y坐标,数据如下:1.1,22.1,23.1,34.1,540,38
- 一年一度的元宵节刚刚过去,由于时间关系,在元宵节当天晚上11点多才完成本文灯笼的绘制。这两天又在忙着别的事情,所以现在才跟大家分享。一、效果
- 1、单元测试的几个重要概念(1)Test Case一个Test Case实例是一个测试用例,完整的测试流程包括测试前准备环境的搭建(setU
- 问题背景:本来想写一个脚本来处理硬盘里的文件,并进行分类处理,但是发现一个问题,使用python内置os模块里的方法出现一些问题,具体的见示
- 前言metrics用于判断模型性能。度量函数类似于损失函数,只是度量的结果不用于训练模型。可以使用任何损失函数作为度量(如logloss等)
- 今天在看文档的时候,发现pytorch 的conv操作不是很明白,于是有了一下记录首先提出两个问题:1.输入图片是单通道情况下的filter
- 前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。闲来无事听听歌,听
- Web Standards Solutions The Markup and Style Handbook - Chapter 1 清单首发
- IE测试通过,FF有点小BUGCls_Leibie.asp代码如下:<% '数据库字段为类属性,添加、删除、修改、操
- pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改inplace = True:不创建新的对象
- 我就废话不多说了,直接上代码吧!def _int_iter(): """根据回文数的定义。首先生成
- 环境:windows10_x64python3.9_x64pjsua-2.10vs2015pjsua编译参考这里: https://www.
- 代码如下所示:# -*- coding: utf-8 -*-import base64import jsonimport urllib.pa
- 简介一款跨平台/无依赖的自动化测试工具,目测只能控制鼠标/键盘/获取屏幕尺寸/弹出消息框/截屏。安装pip install pyautogu
- 强转int类型会直接对浮点数的小数部分进行截断(无论是正还是负)。还有一种方法是math.ceil和math.floor。无论是正数还是负数
- 动态规划是一种用来解决定义了一个状态空间的问题的算法策略。这些问题可分解为新的子问题,子问题有自己的参数。为了解决它们,我们必须搜索这个状态
- SQL Server Extended Events(下面简称XEvent)是SQL Server 2008里新加的事件处理系统,用来取代S
- 首先,自学Python是能够找到相关工作的。Python语言在近几年的上升趋势非常明显,语言生态也越来越健全,在Web开发、大数据开发、人工
- 执行环境会负责管理代码执行过程中使用的内存,编写JavaScript程序时,所需内存的分配以及无用内存的回收完全实现自动管理。原理:找出那些
- 搞不清楚在闭包(closures)中Python是怎样绑定变量的看这个例子:>>> def create_multipli