python爬虫scrapy框架的梨视频案例解析
作者:小王子爱上玫瑰 发布时间:2023-01-16 08:22:19
标签:python,爬虫,scrapy,框架,梨视频
目录
1.爬虫文件
2.items.py
3.pipelines.py
4.进行持久化存储
之前我们使用lxml对梨视频网站中的视频进行了下载,感兴趣的朋友点击查看吧。
下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取
分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频,跳转到新的url中才能获取,我们就不能在一个方法中去解析我们需要的不同内容
1.爬虫文件
这里我们可以仿照爬虫文件中的parse方法,写一个新的parse方法,可以将新的url的响应对象传给这个新的parse方法
如果需要在不同的parse方法中使用同一个item对象,可以使用meta参数字典,将item传给callback回调函数
爬虫文件中的parse需要yield的Request请求,而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件
import scrapy
# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem
class BossSpider(scrapy.Spider):
name = 'boss'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.pearvideo.com/category_5']
# 回调函数接受响应对象,并且接受传递过来的meata参数
def content_parse(self,response):
# meta参数包含在response响应对象中,调用meta,然后根据键值取出对应的值:item
item = response.meta['item']
# 解析视频链接中的对视频的描述
des = response.xpath('//div[@class="summary"]/text()').extract()
des = "".join(des)
item['des'] = des
yield item
# 解析首页视频的标题以及视频的链接
def parse(self, response):
li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
for li in li_list:
href = li.xpath('./div/a/@href').extract()
href = "https://www.pearvideo.com/" + "".join(href)
title = li.xpath('./div[1]/a/div[2]/text()').extract()
title = "".join(title)
item = BossprojectItem()
item["title"] = title
#手动发送请求,并将响应对象传给回调函数
#请求传参:meta={},可以将meta字典传递给请求对应的回调函数
yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})
2.items.py
要将BossprojectItem类导入爬虫文件中才能够创建item对象
import scrapy
class BossprojectItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 定义了item属性
title = scrapy.Field()
des = scrapy.Field()
3.pipelines.py
open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法,且这两个方法都只执行一次在process_item方法中最好保留return item,因为如果存在多个管道类,return item会自动将item对象传给优先级低于自己的管道类
from itemadapter import ItemAdapter
class BossprojectPipeline:
def __init__(self):
self.fp = None
# 重写父类方法,只调用一次
def open_spider(self,spider):
print("爬虫开始")
self.fp = open('./lishipin.txt','w')
# 接受爬虫文件中yield传递来的item对象,将item中的内容持久化存储
def process_item(self, item, spider):
self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')
# 如果有多个管道类,会将item传递给下一个管道类
# 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
return item
# 重写父类方法,只调用一次
def close_spider(self,spider):
self.fp.close()
print("爬虫结束")
4.进行持久化存储
来源:https://blog.csdn.net/m0_46500590/article/details/113837806
0
投稿
猜你喜欢
- 目录用Python写一个简单的通讯录一、构思1、定义空列表和一个空字典来存储2、定义功能选项3、添加通讯录功能4、 循环,调用所有的函数功能
- 为了防止某些别有用心的人从外部访问数据库,盗取数据库中的用户姓名、密码、信用卡号等其他重要信息,在我们创建数据库驱动的解决方案时,我们首先需
- 在VBScript中,有一个On Error Resume Next语句,它使脚本解释器忽略运行期错误并继续脚本代码的执行。接着该脚本可以检
- 这两天搞脚本,花费不少时间。Python和Shell都可以获取文本内容,网上许多资料介绍的都不具体。简单的使用Python和Shell写了脚
- iframe的背景颜色在IE下为window的当前窗口颜色(默认白色,可以在显示外观处对其进行设置),这导致在大幅背景上插入iframe时,
- 一、介绍如果在Python中需要对用户输入的密码或者其他内容进行加密,首选的方法是生成hash值。在Python中可以利用二个模块来进行:&
- 今天,总结一下最近编程使用的python异常处理和日志处理的感受,其实异常处理是程序编写时非常重要的一块,但是我一开始学的语言是C++,这门
- 1.使用效果如下面动图所示,点击取色按钮后,将鼠标移动到想要取色的位置,等待两秒即可取色:点击save color按钮可以将颜色存储到col
- php写入mysql出现中文乱码的解决办法是:在建立数据库连接之后,将该连接的编码方式改为中文。代码如下:$linkID=@mysql_co
- 一、为表创建自增长自段有两种,一种是不同的表使用各自的Sequence,方法如下: 1、在Oracle sequence首先创建sequen
- MySQL Innodb 引擎优化,InnoDB给MySQL提供了具有提交,回滚和崩溃恢复能力的事务安全(ACID兼容)存储引擎。InnoD
- Python有一随机函数可以产生[0,1)区间内的随机数,基于此函数生成随机分布在任意三角形内的点由数学知识得知:几何体的向量表达形式直线:
- 如果你已经理解了block formatting contexts那么请继续,否则请先看看这篇文章。Overflow能够做一些很牛掰的事情,
- Django提供了一个新的类来帮助你管理分页数据,这个类存放在django/core/paginator.py.它可以接收列表、元组或其它可
- 这带来了很多好处,但是也要求学习一些新的概念、命令、使用和管理任务。所以在投入你的生产系统之前,看看它解决什么、管理什么,以及对它的正反面评
- 本文所依赖的环境为:进程和线程的概念进程概念我们想运行一个程序,首先会将该程序从存储介质上通过IO总线加载进内存中,而后再通过cpu进行调度
- 注意:我使用的是 Entity Framework Core 2.0 (2.0.0-preview2-final)。正式版发布时,功能可能存
- 我们将会看到一些在Python中使用线程的实例和如何避免线程之间的竞争。你应当将下边的例子运行多次,以便可以注意到线程是不可预测的和线程每次
- Python字符串和字典相关操作的实例详解字符串操作:字符串的 % 格式化操作:str = "Hello,%s.%s enough
- 1. 函数求一阶导import tensorflow as tftf.enable_eager_execution()tfe=tf.cont