位置：首页>> 网络编程>> 网络编程>> 基于scrapy实现的简单蜘蛛采集程序

基于scrapy实现的简单蜘蛛采集程序

作者：pythoner　　发布时间：2023-09-22 03:58:02　

标签：scrapy,蜘蛛,采集

本文实例讲述了基于scrapy实现的简单蜘蛛采集程序。分享给大家供大家参考。具体如下：

# Standard Python library imports
# 3rd party imports
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
# My imports
from poetry_analysis.items import PoetryAnalysisItem
HTML_FILE_NAME = r'.+\.html'
class PoetryParser(object):
"""
Provides common parsing method for poems formatted this one specific way.
"""
date_pattern = r'(\d{2} \w{3,9} \d{4})'

def parse_poem(self, response):
hxs = HtmlXPathSelector(response)
item = PoetryAnalysisItem()
# All poetry text is in pre tags
text = hxs.select('//pre/text()').extract()
item['text'] = ''.join(text)
item['url'] = response.url
# head/title contains title - a poem by author
title_text = hxs.select('//head/title/text()').extract()[0]
item['title'], item['author'] = title_text.split(' - ')
item['author'] = item['author'].replace('a poem by', '')
for key in ['title', 'author']:
item[key] = item[key].strip()
item['date'] = hxs.select("//p[@class='small']/text()").re(date_pattern)
return item
class PoetrySpider(CrawlSpider, PoetryParser):
name = 'example.com_poetry'
allowed_domains = ['www.example.com']
root_path = 'someuser/poetry/'
start_urls = ['http://www.example.com/someuser/poetry/recent/',
'http://www.example.com/someuser/poetry/less_recent/']
rules = [Rule(SgmlLinkExtractor(allow=[start_urls[0] + HTML_FILE_NAME]),
callback='parse_poem'),
Rule(SgmlLinkExtractor(allow=[start_urls[1] + HTML_FILE_NAME]),
callback='parse_poem')]

希望本文所述对大家的Python程序设计有所帮助。

0

投稿

猜你喜欢

web脚本程序攻击的防范
如今WEB的安全问题影响着整个安全界，SQL注入，跨站脚本攻击等攻击受到了关注。网络安全问题日益变的更加重要，国内依然有很多主机受到此类安
CentOS6.9+Mysql5.7.18源码安装详细教程
CentOS6.9+Mysql5.7.18源码安装，以下操作均在root用户下执行。1、安装依赖工具cmake make3.75+ gcc4
如何编写一个只在Web服务关闭时执行的程序？
如何编写一个只在Web服务关闭时执行的程序？如：<SCRIPT LANGUAGE="VBScript"&
Pycharm以root权限运行脚本的方法
因为权限不够，导致Pycharm在运行脚本时报错：socket.error: [Errno 1] Operation not permitt
如何远程连接SQL Server数据库图文教程
一.设置客户端网络实用工具点击“开始”－“程序”，在“Microsoft SQL Server”菜单中选择“客户端网络实用工具”。在“别名
通过Kettle自定义jar包供javascript使用
这篇文章主要介绍了通过Kettle自定义jar包供javascript使用,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参
Vue实现数据请求拦截
本文实例为大家分享了vue数据请求拦截的具体代码，供大家参考，具体内容如下在src文件夹下创建utils文件夹同时在文件夹下创建reques
MySQL8忘记密码的快速解决方法
前言当我们忘记mysql数据库密码时我们就无法正常进入数据库，也就无法修改密码，那么这时该怎么修改密码呢，这里教大家一个简单常用修改密码的方
Python实现以时间换空间的缓存替换算法
缓存是指可以进行高速数据交换的存储器，它先于内存与CPU交换数据，因此速度很快。缓存就是把一些数据暂时存放于某些地方，可能是内存，也有可能硬
python之生产者消费者模型实现详解
代码及注释如下#Auther Bob#--*--conding:utf-8 --*--#生产者消费者模型，这里的例子是这样的，有一个厨师在做
详解ABP框架中Session功能的使用方法
如果一个应用程序需要登录，则它必须知道当前用户执行了什么操作。因此ASP.NET在展示层提供了一套自己的SESSION会话对象，而ABP则提
asp如何显示最后十名来访者信息？
如何显示最后十名来访者？代码和说明见下：<％Application.LockIF NOT isArray(&nbs
一篇文章教会你PYcharm的用法
一、界面介绍文件导航区域能够浏览／定位／打开项目文件文件编辑区域能够编辑当前打开的文件控制台区域能够：输出程序执行内容跟踪调试
用PHP编写和读取XML的几种方式
一.使用DOM生成和读取XML文件实例一： <?php //Creates XML string and XML document
用python实现文件备份
1、需求用户输入当前目录下任意文件名，程序完成对该文件的备份功能。备份文件名为xx[备份]后缀，例如：test[备份].txt。2、步骤接收
收藏整理的一些Python常用方法和技巧
1. 逆转字符串的三种方法1.1. 模拟C++中方法，定义一个空字符串来实现通过设置一个空字符串，然后讲参数中的字符串从后往前遍历，使
Python实现孤立随机森林算法的示例代码
1 简介孤立森林（isolation Forest）是一种高效的异常检测算法，它和随机森林类似，但每次选择划分属性和划分点（值）时都是随机的
python利用7z批量解压rar的实现
一开始我使用了rarfile这个库，奈何对于含有密码的压缩包支持不好，在linux上不抛出异常；之后有又尝试了unrar。。比rarfile
Python中unittest的数据驱动详解
前言在设计用例的时候,有些用例只是参数数据的输入不一样,比如登录这个功能,操作过程是一样的.如果重复去写操作过程会增加代码量,对应这种多组数
Python enumerate函数遍历数据对象组合过程解析
这篇文章主要介绍了Python enumerate函数遍历数据对象组合过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定

从DataFrame中提取出Series或DataFrame对象的方法

pyqt5利用pyqtDesigner实现登录界面

解析jetbrains IDE的插件加载不出来的问题(IDEA、pycharm等)

SVN与Git版本控制的优缺点差异全面分析

AI经典书单人工智能入门该读哪些书?

Java正则表达式的替换和分组功能

matplotlib基本图形绘制操作实例

eBay 打造基于 Apache Druid 的大数据实时监控系统

import的本质解析

JetBrains(IEDA、CLion、Pycharm) 学生获得免费使用资格

一起来捉妖怎么获得一见倾心基因？一见倾心基因获取方式一览

如何删除和添加word的脚注那个横线?

word输入竖排文字的两种方法

魂器学院首抽角色哪个好？十连抽角色排名解析

Windows10设备如何使用wifi direct

VGAME：消零世界太阳之花异闻如何触发？太阳之花异闻完成攻略分享

iPhone手机的深色模式能省电吗？

利用U盘给系统加密

华为手机允许安装未知来源在哪里设置

alg.exe是什么进程？为什么运行？如何识别alg.exe病毒？

手机版 网络编程 asp之家 www.aspxhome.com