位置：首页>> 网络编程>> Python编程>> Python使用Scrapy爬取妹子图

Python使用Scrapy爬取妹子图

作者：hebedich　　发布时间：2022-06-17 23:47:41　

标签：Python,Scrapy,爬取妹子图

Python Scrapy爬虫，听说妹子图挺火，我整站爬取了，上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem

class MeizituSpider(scrapy.Spider):
name = "meizitu"
allowed_domains = ["meizitu.com"]
start_urls = (
'http://www.meizitu.com/',
)

def parse(self, response):
sel = Selector(response)
for link in sel.xpath('//h2/a/@href').extract():
request = scrapy.Request(link, callback=self.parse_item)
yield request

pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
print('pages: ％s' ％ pages)
if len(pages) > 2:
page_link = pages[-2]
page_link = page_link.replace('/a/', '')
request = scrapy.Request('http://www.meizitu.com/a/％s' ％ page_link, callback=self.parse)
yield request

def parse_item(self, response):
l = ItemLoader(item=MeizituItem(), response=response)
l.add_xpath('name', '//h2/a/text()')
l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())

l.add_value('url', response.url)
return l.load_item()

项目地址：https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部内容了，希望大家能够喜欢。

0

投稿

猜你喜欢

vue计时器的实现方法
本文实例为大家分享了vue实现计时器的具体代码，供大家参考，具体内容如下这里做的是点击按钮开始与结束倒计时的功能<div class=
Python快速优雅的批量修改Word文档样式
目录需求描述步骤分析和前置知识代码实现写在最后需求描述手上现有若干份财务分析报告的Word文档，如下：每一份Word文档中的内容如下：为了方
用VB生成DLL封装ASP代码一个例子：连接access数据库等
封装为dll会带来很多的好处，主要包括只是产权的保护，以及效率和安全性能的提升。这个例子中被封装的dll文件可以隐藏access数据库的实际
详解让Python性能起飞的15个技巧
前言Python 一直以来被大家所诟病的一点就是执行速度慢，但不可否认的是 Python 依然是我们学习和工作中的一大利器。因此，我们对 P
asp实现*号隐藏IP地址
我们经常见到很多网站留言系统的显示访客的IP地址都是隐藏了一部分，以达到隐蔽访客真实地理位置的功能。如：111.222.333.*，当然在系
详解SQL Server中的事务与锁问题
一概述在数据库方面，对于非DBA的程序员来说，事务与锁是一大难点，针对该难点，本篇文章试图采用图文的方式来与大家一起探讨。“浅
python实现b站直播自动发送弹幕功能
基本开发环境· Python 3.6· Pycharm相关模块使用import requestsimport timefrom tkinte
Python创建简单的神经网络实例讲解
在过去的几十年里，机器学习对世界产生了巨大的影响，而且它的普及程度似乎在不断增长。最近，越来越多的人已经熟悉了机器学习的子领域，如神经网络，
详解使用 pyenv 管理多个版本 python 环境
随着同时开发的项目越来越多，需要不停的在各个不同版本的 python 环境之间切换，所以想到了pyenv。以前一直使用的 vir
JS清空上传控件input(type="file")的值的代码第1/2页
google找到这样一个解决方法：在上传控件中插入了值，就只能通过form的reset功能来清空了，但是form里面其他的值也被reset
javascript 兼容所有浏览器的DOM扩展功能
今天周五，很闲，坐在电脑前没什么事可做，产品线的人也没提什么新的需求，可能下周会有新的需求和工作安排，但那是下周的事了。今天就想写点技术的东
TensorFlow损失函数专题详解
一、分类问题损失函数——交叉熵（crossentropy）交叉熵刻画了两个概率分布之间的距离，是分类问题中使用广泛的损失函数。给定两个概率分
Python代码需要缩进吗
Python则是通过缩进来识别代码块的。缩进Python最具特色的是用缩进来标明成块的代码。我下面以if选择结构来举例。if后面跟随条件，如
酷! 程序员用Python带你玩转冲顶大会
2018年1月3日，王思聪被迫动用自己的微博，为一个诞生不到10天的App打了广告，“每天我都发奖金，今晚9点就发10万”。对他而言，这天的
Python函数默认参数常见问题及解决方案
一、默认参数python为了简化函数的调用，提供了默认参数机制：这样在调用pow函数时，就可以省略最后一个参数不写：在定义有默认参数的函数时
python3爬虫中异步协程的用法
1. 前言在执行一些 IO 密集型任务的时候，程序常常会因为等待 IO 而阻塞。比如在网络爬虫中，如果我们使用 requests 库来进行请
详解Python中的type和object
type 所有类是type生成的a = 1b = "abc"print("type a：{}&qu
Python实现的手机号归属地相关信息查询功能示例
本文实例讲述了Python实现的手机号归属地相关信息查询功能。分享给大家供大家参考，具体如下：根据指定的手机号码，查询其归属地等相关信息，P
详解在Python程序中使用Cookie的教程
大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？Cookie，指
django配置DJANGO_SETTINGS_MODULE的实现
DJANGO_SETTINGS_MODULE使用Django时要通知Django当前使用的是哪个配置文件。可以改变环境变量 DJANGO_S

python操作日期和时间的方法

python logging通过json文件配置的步骤

解决Python运算符重载的问题

python利用socketserver实现并发套接字功能

python 密码验证(滑块验证)

Python中的字符串切片（截取字符串）的详解

python游戏实战项目之童年经典超级玛丽

Python turtle画图库&&画姓名实例

基于python 的Pygame最小开发框架

Django中Forms的使用代码解析

Windows10自带内存检测工具好用吗？如何使用？

Android实现仿iOS菊花加载圈动画效果

火影忍者功夫一笔画46关怎么过

PPT如何给文字添加上下标？PPT给文字添加上下标的方法

明日方舟重装干员临光人物强度怎么样

清除Win8系统更新缓存的解决方法

Excel表格怎么给所有数字批量增加指定值？

这题太难了第16关怎么过

崩坏星穹铁道姬子强度怎么样

edge浏览器如何安装插件？

手机版 网络编程 asp之家 www.aspxhome.com