位置：首页>> 网络编程>> Python编程>> python制作花瓣网美女图片爬虫

python制作花瓣网美女图片爬虫

作者：hebedich　　发布时间：2023-05-20 01:51:55　

标签：python,爬虫

花瓣图片的加载使用了延迟加载的技术，源代码只能下载20多张图片，修改后基本能下载所有的了，只是速度有点慢，后面再优化下

import urllib, urllib2, re, sys, os,requests
path=r"C:\wqa\beautify"
url = 'http://huaban.com/favorite/beauty'
#http://huaban.com/explore/zhongwenlogo/?ig1un9tq&max=327773629&limit=20&wfl=1
i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.71 Safari/537.36"}
count=0

def urlHandle(url):
req = urllib2.Request(url, headers=i_headers)
html = urllib2.urlopen(req).read()
reg = re.compile(r'"pin_id":(\d+),.+?"file":{"farm":"farm1", "bucket":"hbimg",.+?"key":"(.*?)",.+?"type":"image/(.*?)"', re.S)
groups = re.findall(reg, html)
return groups

def imgHandle(groups):
if groups:
for att in groups:
pin_id = att[0]
att_url = att[1] + '_fw236'
img_type = att[2]
img_url = 'http://img.hb.aicdn.com/' + att_url

r = requests.get(img_url)
with open(path + att_url + '.' + img_type, 'wb') as fd:
for chunk in r.iter_content():
fd.write(chunk)

groups = urlHandle(url)
imgHandle(groups)

while(groups):
count+=1
print count
pin_id = groups[-1][0]
print pin_id
urltemp = url+'/?max=' + str(pin_id) + '&limit=' + str(20) + '&wfl=1'
print(urltemp)
groups = urlHandle(urltemp)
#print groups
imgHandle(groups)

0

投稿

猜你喜欢

查找MySQL线程中死锁的ID的方法
如果遇到死锁了，怎么解决呢？找到原始的锁ID，然后KILL掉一直持有的那个线程就可以了，但是众多线程，可怎么找到引起死锁的线程
python用tkinter实现一个gui的翻译工具
#!/usr/bin/env python# -*- coding: utf-8 -*-from tkinter import *impor
WEB前端开发经验总结之实战篇
阅读上一篇：WEB前端开发经验总结 ⅠWEB标准篇现在我们接着来讲怎么在实际开发中结合我前面所讲的理论来开发制作页面吧。现在就来看看我们要制
MySQL和SQLServer的比较
转自： http://www.qqread.com/mysql/z442108305.html对于程序开发人员而言，目前使用最流行的两种后台
探究Python中isalnum()方法的使用
isalnum()方法检查判断字符串是否包含字母数字字符。语法以下是isalnum()方法的语法：str.isa1num()参数
分享2个方便调试Python代码的实用工具
1. 引言今天来给小伙伴推荐两款实用的便于调试Python代码的工具，可以方便展示我们调试代码的中间状态，提升大家的编码效率。2. 动机在日
Python制作词云图代码实例
词云图是将词汇按照频率的高低显示不同大小而形成的图，可以一目了然地看出关键词。下面是词云图的python代码～#导入需要模块import j
Pyhon Flask框架:第一个Flask程序
Flask框架介绍Flask诞生于2010年，是Armin ronacher用Python语言基于Werkzeug工具箱编写的轻量级Web开
各种 lightbox 实现效果介绍
这里列出了13种实现图片或网页内容 lightbox 效果的方法，大部分是链接到各种lightbox作者的英文页面，里面都有源代码下载。Th
静态页面分页的AJAX实现
最近因工作需要，要在静态页面上实现分页，想了下，决定用AJAX来实现，所以就捣鼓了下面这么个东西，截图如下：更多关于分页的文章演示地址：ht
TensorFlow实现Batch Normalization
一、BN（Batch Normalization）算法1. 对数据进行归一化处理的重要性神经网络学习过程的本质就是学习数据分布，在训练数据与
IDEA Git Stash 使用详解
随着公司开发人员的增加，以及多需求的并行开发，功能上线就会碍手碍脚；害怕自己没写完的代码被别人部署到线上，害怕别人代码没写完被自己部署到线上
Python使用Flask-SQLAlchemy连接数据库操作示例
本文实例讲述了Python使用Flask-SQLAlchemy连接数据库操作。分享给大家供大家参考，具体如下：需要安装flaskpip in
Python爬虫简单运用爬取 * 的实现
功能1：爬取西拉ip代理官网上的代理ip环境：python3.8+pycharm库：requests，lxml浏览器：谷歌IP地址：htt
Python Django的安装配置教程图文详解
Django 教程Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Dja
在Python中使用PIL模块处理图像的教程
PIL：Python Imaging Library，已经是Python平台事实上的图像处理标准库了。PIL功能非常强大，但API却非常简单
Python后台管理员管理前台会员信息的讲解
问题： 1. 后台管理员只有一个用户: admin, 密码: admin 2. 当管理员登陆成功后，可以管理前台会员信
linux下mysql乱码问题的解决方案
项目进行到和服务器交互，通过post访问服务器端jsp，jsp访问服务器端mysql数据库，最终返回到客户端的中文出现乱码问题。在整个流程中
python 使用tkinter与messagebox写界面和弹窗
1、grid 布局说明：参数说明： sticky：在插件正常尺寸下，分配单元中多余的空间（如果没有声明属性，默认插
python反转一个三位整数的多种实现方案
在LintCode上练习遇到这个问题，查阅资料找到多种方法，总结如下。输入输出123321第一种：整数方法取余取整实现class Solut

初步探究Python程序的执行原理

Python简单实现区域生长方式

python发送json参数的实例代码

Django前端BootCSS实现分页的方法

浅析Python中的for 循环

Python 解析简单的XML数据

Django用户认证系统如何实现自定义

python爬虫框架scrapy下载中间件的编写方法

python计算时间差的方法

python 实现数字字符串左侧补零的方法

Access 导入到SQL Server 2005的方法小结

Win7怎么设置虚拟内存?

RecyclerView上拉加载封装代码

小程序如何支持使用 async/await详解

MAC如何使用passwd命令快速设置登录密码

Win10更新1909 开机后数分钟就出现卡死现象怎么办？

python爬虫使用cookie登录详解

坎公骑冠剑法老墓穴怎么通关

wps文字怎么将表格美化

word文档分栏怎么设置 word设置文档分栏

手机版 网络编程 asp之家 www.aspxhome.com