基于python实现获取网页图片过程解析
作者:哈哈哈天蝎 发布时间:2023-10-08 21:57:59
标签:python,获取,图片
环境:python3, 要安 * s4这个第三方库
获取请求头的方法
这里使用的是Chrome浏览器。
打开你想查询的网站,按F12,或者鼠标右键一下选择检查。会弹出如下的审查元素页面:
然后点击上方选项中的Network选项:
此时在按Ctrl+R:
选择下方框中的第一个,单击:
选择Headers选项,其中就会有Request Headers,包括你需要的信息。
介绍:这个程序是用来批量获取网页的图片,用于新手入门
注意:由于是入门的程序在获取某些网页的图片时会出问题!!!!!
import os
import urllib.request
from bs4 import BeautifulSoup
# 网址
url = "http://www2017.tyut.edu.cn/"
# 建立请求对象
request = urllib.request.Request(url)
# 加入请求头(一定要换成自己的!!!!)
request.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36')
# 获取请求
code = urllib.request.urlopen(request)
# 得到html代码
html = code.read().decode('utf-8')
# 将html的标签转成对象(方便后面的操作)
bs = BeautifulSoup(html, 'html.parser')
# 提取所有的img标签
imagesUrl = bs.find_all('img')
sources = []
# 建立存放的路径(路径一定要存在!!!!!!)
filepath = os.getcwd() + '\\images\\'
def createFile(path: str, fpath):
urllib.request.urlretrieve(path, fpath)
# 获取图片的路径(网址+img标签的src属性的值)
for img in imagesUrl:
sources.append(url + str(img.get('src')))
for src in sources:
# 用split是防止请求带参
baseName = os.path.basename(src).split('?')
# 图片名
fileName = filepath + baseName[0]
print("url=" + src, "filename=" + fileName)
createFile(src, fileName)
print('这次您一共下载了图片' + str(len(sources)) + '张')
来源:https://www.cnblogs.com/li1234567980/p/12853173.html
0
投稿
猜你喜欢
- 本文实例讲述了python使用PyGame绘制图像并保存为图片文件的方法。分享给大家供大家参考。具体实现方法如下:''
- 很久没有更新blog了,这段时间实在是发生了很多的事,累身累心。但还是有很多想做的事,比如更新merceCSS、把一直以来所总结的有关模块化
- asp代码 如下:读取注册表信息使用了对象WScript.Shell<%Dim strPath strP
- 处理数据时,经常需要对索引进行处理,那么可以通过set_index和reset_index来进行处理官方文档DataFrame.set_in
- “In the latest release 10.2 Oracle changed these default values. The m
- 散点图,顾名思义是一些散乱的点构成的图。那么这些散乱的点有什么作用呢?散点图通过用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是
- FileSystemObject、Folder 和 File 对象的一些方法都与通过 TextStream 对象创建、读取或写入文件有关。虽
- a. 如果欲使用gb2312编码,那么php要输出头:header(“Content-Type: text/html; charset=gb
- 使用opencv将图片转为灰度图主要有两种方法,第一种是将彩 * 转为灰度图,第二种是在使用OpenCV读取图片的时候直接读取为灰度图。将彩色
- 前言Python代码缩进和测试模块是大家学习python必不可少的一部分,本文主要介绍了关于Python代码缩进和测试模块的相关内容,分享出
- 在上一篇Python接口自动化测试系列文章:Python接口自动化浅析logging日志原理及模块操作流程,主要介绍日志相关概念及loggi
- CSS换肤技术一直是一个比较热门的话题,通过给HTML文档不同的CSS样式应用,实现完全不同或风格迥异的页面效果。这样的技术一直为大家所津津
- 1:文件内容格式为json的数据如何解析import json,os,syscurrent_dir=os.path.abspath(&quo
- 1、pyecharts介绍 Echarts是一款由百度公司开发的开源数据可视化JS库,pyecharts是一款使用python调用echar
- 天冷,人懒,事多,我就不全文翻译了。只列几个标题,很多内容完全按照我自己的理解写了一下。想读原汁原味的请移步:Icon design tre
- 时间久了,注册用户和朋友数据库里的废记录渐渐多了起来,尤其是电子邮件地址,请问有什么好的办法可以快速安全地将它们删除吗?试试下面这个办法,它
- 创意404页面的文章我们似乎已经出过两篇了,今天hongkiat又带来了60个创意404页面.相关404页面设计文章:国外404错误页面的创
- 实验环境:windows 7,anaconda 3(python 3.5),tensorflow(gpu/cpu)函数介绍:所用函数为six
- /* --注意:准备数据(可略过,非常耗时) CREATE TABLE CHECK1_T1 ( ID INT, C1 CHAR(8000)
- 容器与可迭代对象在正式开始前先补充一些基本概念在 Python 中存在容器 与 可迭代对象容器:用来存储多个元素的数据结构,例如 列表,元组