使用Python爬取小姐姐图片(beautifulsoup法)
作者:割韭菜的喵酱 发布时间:2022-05-02 04:01:44
Python有许多强大的库用于爬虫,如beautifulsoup、requests等,本文将以网站https://www.xiurenji.cc/XiuRen/为例(慎点!!),讲解网络爬取图片的一般步骤。
为什么选择这个网站?其实与网站的内容无关。主要有两项技术层面的原因:①该网站的页面构造较有规律,适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制,可以放心使用爬虫。
第三方库需求
beautifulsoup
requests
步骤
打开网站,点击不同的页面:
发现其首页是https://www.xiurenji.cc/XiuRen/,而第二页是https://www.xiurenji.cc/XiuRen/index2.html,第三页第四页以此类推。为了爬虫代码的普适性,我们不妨从第二页以后进行构造url。
选中封面图片,点击检查:
可以发现,图片的信息,都在'div',class_='dan'
里,而链接又在a
标签下的href
里。据此我们可以写一段代码提取出每一个封面图片的url:
def getFirstPage(page):
url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
res=requests.get(url)#发送请求
res.encoding="gbk"#设置编码方式为gbk
html=res.text
soup=BeautifulSoup(html,features='lxml')
lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
urls=[]
for item in lists:
url1=item.find('a').get('href')#寻找每一个封面对应的网址
urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
return urls#返回该主页每一个封面对应的网址
点击封面图片,打开不同的页面,可以发现,首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四页同理。同样为了普适性,我们从第二页开始爬取。
右键,点击“检查”:
可以发现所有的图片信息都储存在'div',class_='img'
中,链接、标题分别在img
标签中的src
和alt
中,我们同样也可以将它们提取出来。
def getFirstPage(page):
url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
res=requests.get(url)#发送请求
res.encoding="gbk"#设置编码方式为gbk
html=res.text
soup=BeautifulSoup(html,features='lxml')
lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
urls=[]
for item in lists:
url1=item.find('a').get('href')#寻找每一个封面对应的网址
urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
return urls#返回该主页每一个封面对应的网址
完整代码
import requests
from bs4 import BeautifulSoup
def getFirstPage(page):
url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
res=requests.get(url)#发送请求
res.encoding="gbk"#设置编码方式为gbk
html=res.text
soup=BeautifulSoup(html,features='lxml')
lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
urls=[]
for item in lists:
url1=item.find('a').get('href')#寻找每一个封面对应的网址
urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素,达到扩充列表的目的,注意要把网址扩充完整
return urls#返回该主页每一个封面对应的网址
def download(urls):
for url1 in urls:
print("prepare to download pictures in "+url1)
getEveryPage(url1)#下载页面内的图片
print("all pictures in "+url1+"are downloaded")
def getEveryPage(url1):
total=0#total的作用:对属于每一个封面内的图片一次编号
for n in range (1,11):#每一个封面对应下载10张图,可自行调整
temp=url1.replace('.html','')
url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址
res=requests.get(url2)
res.encoding="gbk"
html=res.text
soup=BeautifulSoup(html,features='lxml')
lists1=soup.find_all('div',class_='img')#储存图片的路径
for item in lists1:
url=item.find('img').get('src')
title=item.find('img').get('alt')#获取图片及其标题
picurl='https://www.xiurenji.cc'+url#获取完整的图片标题
picture=requests.get(picurl).content#下载图片
address='D:\pythonimages'+'\\'#自定义保存图片的路径
with open(address+title+str(total)+'.jpg','wb') as file:#保存图片
print("downloading"+title+str(total))
total=total+1
file.write(picture)
if __name__ == "__main__":
page=int(input('input the page you want:'))
urls=getFirstPage(page)
download(urls)
本文仅供学习参考,切勿用作其他用途!
来源:https://blog.csdn.net/m0_51908955/article/details/113767822


猜你喜欢
- 本文实例为大家分享了python实现电子词典的具体代码,供大家参考,具体内容如下服务端#!/usr/bin/env python3from
- DBI安装:DBI详细信息参考:http://dbi.perl.org/ 1.下载DBI包: wget http://search.cpan
- 前言对于pprof,相信熟悉go语言的程序员基本都不陌生,一般线上的问题都是靠它可以快速定位。但是实际项目中,很多时候我们为了性能都不会开启
- 在进行接口自动化测试时,有好多接口都基于登陆接口的响应值来关联进行操作的,在次之前试了很多方法,都没有成功,其实很简单用session来做。
- HTTP状态码 摘要说明成功2××  
- 无聊的人在无聊的时间做无聊的事打发自己,结果在无聊的事情中发现了IE对内联文字解释的一些疑惑。以下问题在FF2中没发现,而我也只
- 请按步骤进行,未进行前面的步骤时,请不要做后面的步骤,以免损坏你的数据库.一般不建议做第4,6两步,第4步不安全,有可能损坏数据库或丢失数据
- 实例如下所示:import osimport stringpath = "/Users/U/workspace/python le
- 发一个数字拼图游戏,有点小疑问前几天写得,其中一段代码还要感谢“簡簡單單愛妳”的提示,不过我还是不太明白, ,有点笨。 $(&qu
- 《色彩解答》系列之一 色彩层次《色彩解答》系列之二 色彩比例我们知道在设计中有很多对比,大小的对比,形状的对比,长短的对比,多少的对比,这些
- 内核:[root@opop ~]# cat /etc/centos-release CentOS release 6.8 (Final)[r
- 本文是基于Apache poi类实现的批量导入读取Excel文件,所以要先引入Apache poi的依赖<dependency>
- MYSQL对大小写敏感见字如面,见标题知内容。你有遇到过因为MYSQL对大小写敏感而被坑的体验吗?之前看过阿里巴巴Java开发手册,在MyS
- 切分文件最近遇到需要切分文件的需求,当然首选用python来解决,网上搜了下感觉都太复杂了,其实用python自带函数即可解决。f = op
- 最近看到大家都练习写树,偶也学习学习写了一个,大家多多批评,我好进步。不过我看了一些树的xml文档都是在xml中就已经有了树的结构,所以我写
- 计算表达式:1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/
- 前言验证码的种类有很多,它是常用的一种反爬手段,包括:图片验证码,滑块验证码,等一些常见的验证码场景。识别验证码的python 库有很多,用
- 加法 select sysdate,add_months(sysdate,12) from dual; --加1年 select sysda
- 本文讲述了python实现删除文件与目录的方法。分享给大家供大家参考。具体实现方法如下:os.remove(path)删除文件 path.
- Seconds_Behind_Master对于mysql主备实例,seconds_behind_master是衡量master与slave之