python爬虫scrapy框架的梨视频案例解析
作者:小王子爱上玫瑰 发布时间:2023-01-16 08:22:19
标签:python,爬虫,scrapy,框架,梨视频
目录
1.爬虫文件
2.items.py
3.pipelines.py
4.进行持久化存储
之前我们使用lxml对梨视频网站中的视频进行了下载,感兴趣的朋友点击查看吧。
下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取
分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频,跳转到新的url中才能获取,我们就不能在一个方法中去解析我们需要的不同内容
1.爬虫文件
这里我们可以仿照爬虫文件中的parse方法,写一个新的parse方法,可以将新的url的响应对象传给这个新的parse方法
如果需要在不同的parse方法中使用同一个item对象,可以使用meta参数字典,将item传给callback回调函数
爬虫文件中的parse需要yield的Request请求,而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件
import scrapy
# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem
class BossSpider(scrapy.Spider):
name = 'boss'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.pearvideo.com/category_5']
# 回调函数接受响应对象,并且接受传递过来的meata参数
def content_parse(self,response):
# meta参数包含在response响应对象中,调用meta,然后根据键值取出对应的值:item
item = response.meta['item']
# 解析视频链接中的对视频的描述
des = response.xpath('//div[@class="summary"]/text()').extract()
des = "".join(des)
item['des'] = des
yield item
# 解析首页视频的标题以及视频的链接
def parse(self, response):
li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
for li in li_list:
href = li.xpath('./div/a/@href').extract()
href = "https://www.pearvideo.com/" + "".join(href)
title = li.xpath('./div[1]/a/div[2]/text()').extract()
title = "".join(title)
item = BossprojectItem()
item["title"] = title
#手动发送请求,并将响应对象传给回调函数
#请求传参:meta={},可以将meta字典传递给请求对应的回调函数
yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})
2.items.py
要将BossprojectItem类导入爬虫文件中才能够创建item对象
import scrapy
class BossprojectItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 定义了item属性
title = scrapy.Field()
des = scrapy.Field()
3.pipelines.py
open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法,且这两个方法都只执行一次在process_item方法中最好保留return item,因为如果存在多个管道类,return item会自动将item对象传给优先级低于自己的管道类
from itemadapter import ItemAdapter
class BossprojectPipeline:
def __init__(self):
self.fp = None
# 重写父类方法,只调用一次
def open_spider(self,spider):
print("爬虫开始")
self.fp = open('./lishipin.txt','w')
# 接受爬虫文件中yield传递来的item对象,将item中的内容持久化存储
def process_item(self, item, spider):
self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')
# 如果有多个管道类,会将item传递给下一个管道类
# 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
return item
# 重写父类方法,只调用一次
def close_spider(self,spider):
self.fp.close()
print("爬虫结束")
4.进行持久化存储
来源:https://blog.csdn.net/m0_46500590/article/details/113837806


猜你喜欢
- Declaring class members or methods as st
- 如下所示:#!/usr/bin/python# -*- coding: utf-8 -*-def rever(sentence): &nbs
- 举例说明: 在Windows环境下:原本在php4.3.0中运行正常的程序,在4.3.1中为何多处报错,大体提示为:Notice:Undef
- 目录一、ACID 特性二、事务控制语法三、事务并发异常1、脏读2、不可重复读3、幻读四、事务隔离级别一、ACID 特性事务处理是一种对必须整
- 导包import “github.com/smartystreets/goconvey”核心API顶
- (1)、函数y = sin(x)(2)、数据准备#数据准备X=np.arange(-np.pi,np.pi,1) #定义样本点X,从-pi到
- 如何在生产上部署Django?Django的部署可以有很多方式,采用nginx+uwsgi的方式是其中比较常见的一种方式。uwsgi介绍uW
- 当一个项目很大的时候我们去找某一个文件经常使用搜索功能,本人经常使用快捷键ctrl+p进行某个文件的搜索,或者单机一个文件时会覆盖掉原来窗口
- 在制作一个 Python 分发包时经常需要把一些文件添加到包中。最常见的例子是你希望通过 pip install 命令安装 Pyt
- 好久没写技术相关的文章,这次写篇有意思的,关于一个有意思的游戏——QQ找茬,关于一种有意思的语言——Python,关于一个有意思的库——Qt
- 由于之前有一个项目老是要打开文件,然后用pickle.load(file),再处理。。。最后要关闭文件,所以觉得有点繁琐,代码也不简洁。所以
- 你需要添加两个按钮:一个按钮使所有英雄都可以死亡,而另一个按钮使所有英雄永生。由于它会影响所有英雄,而与选择无关,因此这需要一个单独的按钮,
- 项目运行环境阿里云(单核CPU, 1G内存, Ubuntu 14.04 x64 带宽1Mbps), 具体购买和ssh连接阿里云本文不做描述。
- 1、视图函数之前的文章说过,在 Flask 中路由是请求的 url 与处理函数之间的映射,使用app.route装饰器将处理函数和 url
- 在服务端程序开发的过程中,cookie经常被用于验证用户登录。golang 的 net/http 包中自带 http cookie的定义,下
- 两种写法。如图,4种重合情况和2种不重合情况。第一种写法:-- 时间段 a,b SELECT * FROM table WHER
- 本文实例讲述了Python基于贪心算法解决背包问题。分享给大家供大家参考,具体如下:贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在
- 前言最近在新的环境配置pycharm的项目时候,发现pycharm不能连接到mysql数据库。由于安了java环境但是还没配置相关的库,并且
- 准确地讲,Python没有专门处理字节的数据类型。但由于str既是字符串,又可以表示字节,所以,字节数组=str。而在C语言中,我们可以很方
- heapq 模块提供了堆算法。heapq是一种子节点和父节点排序的树形数据结构。这个模块提供heap[k] <= heap[2*k+1