位置：首页>> 网络编程>> Python编程>> Python使用scrapy抓取网站sitemap信息的方法

Python使用scrapy抓取网站sitemap信息的方法

作者：pythoner　　发布时间：2023-04-02 20:03:18　

标签：Python,scrapy,抓取

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
name = "SitemapSpider"
start_urls = ["http://www.domain.com/sitemap.xml"]
def parse(self, response):
nodename = 'loc'
text = body_or_str(response)
r = re.compile(r"(<％s[\s>])(.*?)(</％s>)"％(nodename,nodename),re.DOTALL)
for match in r.finditer(text):
url = match.group(2)
yield Request(url, callback=self.parse_page)
def parse_page(self, response):
hxs = HtmlXPathSelector(response)
#Mock Item
blah = Item()
#Do all your page parsing and selecting the elemtents you want
blash.divText = hxs.select('//div/text()').extract()[0]
yield blah

希望本文所述对大家的Python程序设计有所帮助。

0

投稿

猜你喜欢

JavaScript解决Joseph问题
javascript中的数组对象捆绑了强大的方法因此它可以用很简短的代码实现强大的数组操作而这些功能要C或者c++实现的话可能需要花费几倍的
python traceback捕获并打印异常的方法
异常处理是日常操作了，但是有时候不能只能打印我们处理的结果，还需要将我们的异常打印出来，这样更直观的显示错误下面来介绍traceback模块
asp开发中textarea常见问题
使用SQL SERVER的[导入]功能,便可将access数据转换,但要注意原来的'自增字段'需要修改,将相应字段标识修改为
ORACLE 回收站当前状态查询整理
回收站(Recycle Bin）从原理上来说就是一个数据字典表，放置用户删除（drop）掉的数据库对象信息。用户进行删除操作的对象并没有被数
两侧背景自动延伸的CSS实现方法
方法来源于土豆网的导航，在这里纪录一下实现的思路。主要是利用 position 属性的 absolute 和 relative 配
想学python 这5本书籍你必看！
python是一种美丽的语言，应用范围也很广，有很多的人开始学习python开发，对于初学者，这里有5本经典的书籍，如果你打算用看书来学习
JavaScript 经典实例日常收集整理(常用经典)
本文是小编日常收集整理些js经典实例，特此分享供大家参考！跨浏览器添加事件//跨浏览器添加事件function addEvent(obj,t
JavaScript中常见的几种获取元素的方式
1.根据id获取元素document.getElementById("id属性的值");返回值是一个元素对象案例：点击按
php实现的三个常用加密解密功能函数示例
本文实例讲述了php实现的三个常用加密解密功能函数。分享给大家供大家参考，具体如下：算法一：//加密函数function lock_url(
Google logo “我的中国”谷歌国际少年绘画大赛小学1-3年级
以下为谷歌国际少年绘画大赛，小学1-3年级作品。看孩子们的logo创意，自愧呀！彩色世界我们热爱温暖的阳光，“O”代表我们心中的太阳。我们
简单谈谈axios中的get,post方法
学习vue和nodejs的过程当中，涉及到了axios，今天为了测试，写了get和post两个方法来跟node服务端交互，结果因为heade
30秒学会30个超实用Python代码片段【收藏版】
许多人在数据科学、机器学习、web开发、脚本编写和自动化等领域中都会使用Python，它是一种十分流行的语言。Python流行的部分原因在于
Python 数字转化成列表详情
本篇阅读的代码实现了将输入的数字转化成一个列表，输入数字中的每一位按照从左到右的顺序成为列表中的一项。本篇阅读的代码片段来自于30-seco
资料：MsSQL常用SQL语句
下列语句部分是Mssql语句，不可以在access中使用。SQL语句分类：DDL—数据定义语言(CREATE，ALTER，DROP，DECL
django用户注册、登录、注销和用户扩展的示例
用户部分是一个网站的基本功能，django对这部分进行了很好的封装，我们只需要在django的基础上做些简单的修改就可以达到我们想要的效果首
php 字符串中是否包含指定字符串的多种方法
编写程序的时候，经常要处理字符串，最基本就是字符串的查找，在php检测字符串中是否包含指定字符串可以使用正则，如果你对正则不了解，那么有几个
asp连接mysql的问题（端口）
asp连接mysql的问题ASP连接Mysql数据库的问题。下了一个MySql 的ODBC驱动。做了个小测试。顺利通过。先记录下来，中间还有
基于Python实现有趣的象棋游戏
导语一直以来，中国象棋都是中华民族的一种象征，当然也是人们最为喜感的一种娱乐方式。在若干年前，人们都习惯于约上自己的棋友，来一种激战。可是，
Python中如何优雅的合并两个字典（dict）方法示例
前言字典是Python中最强大的数据类型之一，本文将给大家详细介绍关于Python合并两个字典（dict）的相关内容，分享出来供大家参考学习
一文理解Python命名机制
猜测下面这段程序的输出：class A(object): def __init__(self):

详解TensorFlow2实现线性回归

Django之模板层的实现代码

一劳永逸彻底解决pip install慢的办法

拓扑排序Python实现的过程

Python encode()方法和decode()方法详解

使用python 写一个静态服务(实战)

用python下载百度文库的代码

Python面向对象编程（三）

Python Collatz序列实现过程解析

Django自定义插件实现网站登录验证码功能

Win10系统下怎么制作PPT？

WPS 如何设置横版打印excel表格

ps怎样给文字添加虚线描边

WPS表格里的文字怎样变成竖版?

如何在 Mac 上重置网络设置？

Django处理Ajax发送的Get请求代码详解

Win11内存占用率过高怎么办？Win11内存使用率90％以上解决方法

Excel中如何制作(设置)性别选择框?

win7中快播无法运行的原因和解决方法

右击选中设置单元格格式 5、会弹出如下选框

手机版 网络编程 asp之家 www.aspxhome.com