位置：首页>> 网络编程>> Python编程>> Python爬虫框架scrapy实现的文件下载功能示例

Python爬虫框架scrapy实现的文件下载功能示例

作者：Charles.L　　发布时间：2023-09-23 09:41:56　

标签：Python,爬虫框架,scrapy,文件下载

本文实例讲述了Python爬虫框架scrapy实现的文件下载功能。分享给大家供大家参考，具体如下：

我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。

mat.py文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractor import LinkExtractor
from weidashang.items import matplotlib
class MatSpider(scrapy.Spider):
name = "mat"
allowed_domains = ["matplotlib.org"]
start_urls = ['https://matplotlib.org/examples']
def parse(self, response):
#抓取每个脚本文件的访问页面，拿到后下载
link = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l2')
for link in link.extract_links(response):
yield scrapy.Request(url=link.url,callback=self.example)
def example(self,response):
#进入每个脚本的页面，抓取源码文件按钮，并和base_url结合起来形成一个完整的url
href = response.css('a.reference.external::attr(href)').extract_first()
url = response.urljoin(href)
example = matplotlib()
example['file_urls'] = [url]
return example

pipelines.py

class MyFilePlipeline(FilesPipeline):
def file_path(self, request, response=None, info=None):
path = urlparse(request.url).path
return join(basename(dirname(path)),basename(path))

settings.py

ITEM_PIPELINES = {
'weidashang.pipelines.MyFilePlipeline': 1,
}
FILES_STORE = 'examples_src'

items.py

class matplotlib(Item):
file_urls = Field()
files = Field()

run.py

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'mat','-o','example.json'])

希望本文所述对大家Python程序设计有所帮助。

来源：https://www.cnblogs.com/lei0213/p/8098180.html

0

投稿

猜你喜欢

如何通过python画loss曲线的方法
1. 首先导入一些python画图的包，读取txt文件，假设我现在有两个模型训练结果的records.txt文件import numpy a
vue中beforeRouteLeave实现页面回退不刷新的示例代码
路由切换返回前一个路由时实现页面不刷新功能，首先想到的是keep-alive，但是页面不属于父子级关系，所以决定用beforeRouteLe
详解Go flag实现二级子命令的方法
前言日常开发使用到的命令行工具大都支持如下特性：文档自动生成（如 -h --help）多级子命令（如 docker exec -it）支持参
从xml中获取城市，省份名称
最近没事，写了个在项目经常要取城市或省份名的方法，所以改成了一个类．方便以后调用//****************************
搜索关键字加亮js实现方法
1、单个关键字加亮代码： <div id="txt"> 用JS让文章内容指定
Java基础之JDBC的数据库连接与基本操作
一、JDBC概述JDBC全称Java Database Connectivity，它是一个独立于特定数据库管理系统、通用的SQL数据库存取和
pycharm 创建py文件总是为txt格式的问题及解决
创建py文件总是为txt格式问题记录写代码过程中创建.py文件时，一直正常，但创建名称为train.py文件时总是为txt格式，即使选择了p
解决golang.org不能访问的问题(推荐)
golang.org不能访问的问题解决golang.org被屏蔽了，直接访问不了，解决办法如下：在 http://ping.eu/
python ImageDraw类实现几何图形的绘制与文字的绘制
python PIL图像处理模块中的ImageDraw类支持各种几何图形的绘制和文本的绘制，如直线、椭圆、弧、弦、多边形以及文字等。下面直接
网页中英文混排行高不等问题
基本上快被这个问题搞疯了，症状如下症状描述：在ie下（6或7，8没有试过）当出现中英文混排，都采用默认字体时，并使用 li 列表做float
Python yield 使用方法浅析
如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个和第二个数外，任意一个数都可由前两个数相加得到。用计
Css 清除浮动
昨天晚上在家里把WM设计好的好台界面做成Html，在家里只用IE8和FF做了测试，感觉还行，除了感觉IE8还不成熟，渲染比较慢且不稳定外，标
python 2.6.6升级到python 2.7.x版本的方法
1.下载python2.7.xwget https://www.python.org/ftp/python/2.7.6/Python-2.7
解决Pytorch修改预训练模型时遇到key不匹配的情况
一、Pytorch修改预训练模型时遇到key不匹配最近想着修改网络的预训练模型vgg.pth，但是发现当我加载预训练模型权重到新建的模型并保
Python操作Access数据库基本步骤分析
本文实例分析了Python操作Access数据库基本步骤。分享给大家供大家参考，具体如下：Python编程语言的出现，带给开发人员非常大的好
zabbix通过percona插件监控mysql的方法
1.安装PHP脚本运行环境yum install -y php php-mysql2.加载官方percona模板[root@cat /]#
基于Python的Houdini插件开发过程详情
本文以Python开发为例来进行说明，环境说明：（1） Python 3.x（我用的版本是 3.9 版本）（2）IDE开具 PyCharm（
网页栅格系统研究:960的秘密
网站首页页面宽度 px Yahoo! 950 淘宝 950 MySpace 960 新浪 950 网易 960 Live Search 9
详解Python下ftp上传文件linux服务器
模块介绍：from ftplib import FTP ftp = FTP() #设置变量 ftp.set_debuglevel(2) #打
戴尔是如何设计新官网首页的
我的同事Fara给大家介绍了戴尔网站首页的改版设计，这里我还想和大家介绍一下戴尔是如何从网站用户使用体验的角度进行设计，让大家进一步了解戴尔

python 实现图像快速替换某种颜色

Python字典创建遍历添加等实用基础操作技巧

python中fastapi设置查询参数可选或必选

快速上手基于Anaconda搭建Django环境的教程

Python排序搜索基本算法之归并排序实例分析

python 判断一个进程是否存在

Python计算开方、立方、圆周率,精确到小数点后任意位的方法

numpy中索引和切片详解

python3实现字符串的全排列的方法(无重复字符)

Python代码实现http/https代理服务器的脚本

Django对接elasticsearch实现全文检索的示例代码

win10分辨率怎么调不了_win10电脑分辨率设置办法

显示ASP页面源码的代码

用python写爬虫简单吗

JDBC利用C3P0数据库连接池连接数据库

word2010插入表格方法

MIMO/毫米波/FBMC 5G技术许许多今天只捡关键说

Python Matplotlib简易教程(小白教程)

ptn和otn的区别是什么

浅谈Python批处理文件夹中的txt文件

手机版 网络编程 asp之家 www.aspxhome.com