python scrapy爬虫代码及填坑
作者:返小白龙i 发布时间:2022-06-04 01:01:36
标签:python,scrapy,爬虫
涉及到详情页爬取
目录结构:
kaoshi_bqg.py
import scrapy
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from ..items import BookBQGItem
class KaoshiBqgSpider(scrapy.Spider):
name = 'kaoshi_bqg'
allowed_domains = ['biquge5200.cc']
start_urls = ['https://www.biquge5200.cc/xuanhuanxiaoshuo/']
rules = (
# 编写匹配文章列表的规则
Rule(LinkExtractor(allow=r'https://www.biquge5200.cc/xuanhuanxiaoshuo/'), follow=True),
# 匹配文章详情
Rule(LinkExtractor(allow=r'.+/[0-9]{1-3}_[0-9]{2-6}/'), callback='parse_item', follow=False),
)
# 小书书名
def parse(self, response):
a_list = response.xpath('//*[@id="newscontent"]/div[1]/ul//li//span[1]/a')
for li in a_list:
name = li.xpath(".//text()").get()
detail_url = li.xpath(".//@href").get()
yield scrapy.Request(url=detail_url, callback=self.parse_book, meta={'info': name})
# 单本书所有的章节名
def parse_book(self, response):
name = response.meta.get('info')
list_a = response.xpath('//*[@id="list"]/dl/dd[position()>20]//a')
for li in list_a:
chapter = li.xpath(".//text()").get()
url = li.xpath(".//@href").get()
yield scrapy.Request(url=url, callback=self.parse_content, meta={'info': (name, chapter)})
# 每章节内容
def parse_content(self, response):
name, chapter = response.meta.get('info')
content = response.xpath('//*[@id="content"]//p/text()').getall()
item = BookBQGItem(name=name, chapter=chapter, content=content)
yield item
xmly.py
# -*- coding: utf-8 -*-
import scrapy
from ..items import BookXMLYItem, BookChapterItem
class XmlySpider(scrapy.Spider):
name = 'xmly'
allowed_domains = ['ximalaya.com']
start_urls = ['https://www.ximalaya.com/youshengshu/wenxue/']
def parse(self, response):
div_details = response.xpath('//*[@id="root"]/main/section/div/div/div[3]/div[1]/div/div[2]/ul/li/div')
# details = div_details[::3]
for details in div_details:
book_id = details.xpath('./div/a/@href').get().split('/')[-2]
book_name = details.xpath('./a[1]/@title').get()
book_author = details.xpath('./a[2]/text()').get() # 作者
book_url = details.xpath('./div/a/@href').get()
url = 'https://www.ximalaya.com' + book_url
# print(book_id, book_name, book_author, url)
item = BookXMLYItem(book_id=book_id, book_name=book_name, book_author=book_author, book_url=url)
yield item
yield scrapy.Request(url=url, callback=self.parse_details, meta={'info': book_id})
def parse_details(self, response):
book_id = response.meta.get('info')
div_details = response.xpath('//*[@id="anchor_sound_list"]/div[2]/ul/li/div[2]')
for details in div_details:
chapter_id = details.xpath('./a/@href').get().split('/')[-1]
chapter_name = details.xpath('./a/text()').get()
chapter_url = details.xpath('./a/@href').get()
url = 'https://www.ximalaya.com' + chapter_url
item = BookChapterItem(book_id=book_id, chapter_id=chapter_id, chapter_name=chapter_name, chapter_url=url)
yield item
item.py
import scrapy
# 笔趣阁字段
class BookBQGItem(scrapy.Item):
name = scrapy.Field()
chapter = scrapy.Field()
content = scrapy.Field()
# 喜马拉雅 字段
class BookXMLYItem(scrapy.Item):
book_name = scrapy.Field()
book_id = scrapy.Field()
book_url = scrapy.Field()
book_author = scrapy.Field()
# 喜马拉雅详情字段
class BookChapterItem(scrapy.Item):
book_id = scrapy.Field()
chapter_id = scrapy.Field()
chapter_name = scrapy.Field()
chapter_url = scrapy.Field()
pipelines.py
from scrapy.exporters import JsonLinesItemExporter
import os
class BqgPipeline(object):
def process_item(self, item, spider):
xs = '小说集'
name = item['name']
xs_path = os.path.join(os.path.dirname(os.path.dirname(__file__)), xs)
fiction_path = os.path.join(xs_path, name)
# print(os.path.dirname(__file__)) D:/Users/Administrator/PycharmProjects/wh1901/biquge.com
# print(os.path.dirname(os.path.dirname(__file__))) D:/Users/Administrator/PycharmProjects/wh1901
if not os.path.exists(xs_path): # 如果目录不存在
os.mkdir(xs_path)
if not os.path.exists(fiction_path):
os.mkdir(fiction_path) # 创建目录
chapter = item['chapter']
content = item['content']
file_path = os.path.join(fiction_path, chapter) + '.txt' # 在 该目录下面创建 xx .txt 文件
with open(file_path, 'w', encoding='utf-8') as fp:
fp.write(content + '\n')
print('保存成功')
# class XmlyPipeline(object):
# def __init__(self):
# self.fp = open("xmly.json", 'wb')
# # JsonLinesItemExporter 调度器
# self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False)
#
# def process_item(self, item, spider):
# self.exporter.export_item(item)
# return item
#
# def close_item(self):
# self.fp.close()
# print("爬虫结束")
starts.py
from scrapy import cmdline
cmdline.execute("scrapy crawl kaoshi_bqg".split())
# cmdline.execute("scrapy crawl xmly".split())
然后是爬取到的数据
小说
xmly.json
记录一下爬取过程中遇到的一点点问题:
在爬取详情页的的时候, 刚开始不知道怎么获取详情页的 url 以及 上一个页面拿到的字段
也就是 yield 返回 请求详情页 里面的参数没有很好地理解
meta:从其他请求传过来的meta属性,可以用来保持多个请求之间的数据连接。
url:这个request对象发送请求的url。
callback:在下载器下载完相应的数据后执行的回调函数。
来源:https://www.cnblogs.com/longpy/p/11180956.html
0
投稿
猜你喜欢
- 下载此插件 并将其解压后的my_focus文件夹安放在KindEditor插件目录下(KindEditor所在目录/plugins/)如:H
- 简介概念散列算法(Hash Algorithm),又称哈希算法,杂凑算法,是一种从任意文件中创造小的数字「指纹」的方法。与指纹一样,散列算法
- MySQL两张表取差集业务场景如下:人员表中有证件号、手机号字段,这两个字段因为涉及到个人隐私问题,因此加密存储,有另外一张解密表可以和人员
- 本教程为大家分享了Linux安装MySQL详细步骤,供大家参考,具体内容如下第一步: 下载MySQL安装包进入mysql官网,进入downl
- 问题分析为了提高系统的吞吐量,很多环节下对于数据库的写入是多线程,甚至是多进程的。为了保证写入成功,在很多情况下需要多次重试。这就会带来一个
- 前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。PS:如有需要Python学习资料的
- python实现rsa加密实例详解一 代码import rsakey = rsa.newkeys(3000)#生成随机秘钥privateKe
- 解决SQL Server 连接失败的问题最近因学习数据库系统原理,下载安装了一个2019版本的,启动服务后,发现使用Aqua Data St
- 前言临近期末做了一个商品销售管理系统,分享下,全部源码在码云,需要自取,博客只分享部分代码(太多了)。数据库的建立我们使用Navicat P
- 这篇文章主要介绍了vue如何实现动态加载脚本,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考
- 本文实例讲述了Python按行读取文件的实现方法。分享给大家供大家参考,具体如下:小文件:#coding=utf-8#author: wal
- Mac系统上虽然自带PHP和Apache,但是有时不是我们想要的版本呢。今天我们就在macOS Sierra(10.12.1)上安装比较新的
- 函数栈帧我们的代码会被编译成机器指令并写入到可执行文件,当程序执行时,可执行文件被加载到内存,这些机器指令会被存储到虚拟地址空间中的代码段,
- 寻觅工具确定任务之后第一步就是找个趁手的库来干活。 Python Excel上列出了xlrd、xlwt、xlutils这几个包,但是它们都比
- asp读取access数据库表名称的代码:<%strConn="DBQ="+server.mappath(&quo
- MySQL5.0版本的安装图解教程是给新手学习的,当前mysql5.0.96是最新的稳定版本。mysql 下载地址 https://www.
- 前言事情是这样的:今天晚上,女朋友让我十二点催她睡觉。不过,可是我实在太困了,熬不下去…… 是吧
- 索引下推(index condition pushdown )简称ICP,在Mysql5.6的版本上推出,用于优化查询。在不使用ICP的情况
- 最常见的方式就是为字段设置主键或唯一索引,当插入重复数据时,抛出错误,程序终止,但这会给后续处理带来麻烦,因此需要对插入语句做特殊处理,尽量
- 本教学使用环境介绍伺服器端:Ubuntu 18.04 LTS资料库:Mariadb 10.1.34(Mysql)语言版本:php 7.3本机