python爬虫urllib中的异常模块处理
作者:苏凉.py 发布时间:2022-12-06 10:42:33
urllib中的异常处理
在我们写爬虫程序时,若出现url中的错误,那么我们就无法爬取我们想要的内容,对此,我们引入了urllib中的异常处理。
url的组成部分
URL由6个部分组成:eg:
https://www.baidu.com/s?wd=易烊千玺
协议(http/https)
主机(www.baidu.com)
端口号(80/443)
路径(s)
参数(wd=易烊千玺)
锚点
常见的端口号:
http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
URLError
通常来说,URLError报错通常为url地址中主机部分的错误:
实例:
url = 'https://www.baidu.com1/'
运行结果:
urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed
HTTPError
这个异常的通常是url地址中参数或是路径的错误。
实例:
url = 'https://www.jianshu.com/p/3388cf148dba1'
运行结果:
urllib.error.HTTPError: HTTP Error 404: Not Found
简介
HTTPError类是URLError类的子类
导入的包urllib.error.HTTPError/urllib.error.URLError
http错误:http错误是针对浏览器无法连接到服务器而增加的出来的错误提示,引导并告诉浏览者该页是出了什么问题。
通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更健壮,可以通过try -except进行捕获异常。
Urllib.error 模块
urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。
urllib.error 包含了两个方法,URLError 和 HTTPError。
URLError 是 OSError 的一个子类,用于处理程序在遇到问题时会引发此异常(或其派生的异常)。
HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。
异常处理
用try except语句块捕获并处理异常,其基本语法结构如下所示:
try:可能产生异常的代码块
except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1
except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2
except [Exception]:处理其它异常
实例:
原url= ‘https://www.jianshu.com/p/3388cf148dba’
源码:
import urllib.request
import urllib.error
url = 'https://www.jianshu.com1/p/3388cf148dba'
# url的组成 eg:https://www.baidu.com/s?wd=易烊千玺
# 1.协议(http/https) 2.主机(www.baidu.com) 3.端口号(80/443) 4.路径(s) 5.参数(wd=易烊千玺) 6.锚点
# 常见的端口号
# http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
try:
request = urllib.request.Request(url = url,headers = headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')
print(content)
except urllib.error.HTTPError:
print('HTTP异常,请稍后!')
except urllib.error.URLError:
print('URL异常,请稍后!')
1.URLError
url = ‘https://www.jianshu.com1/p/3388cf148dba’
运行结果:
2.HTTPError
url = ‘https://www.jianshu.com/p/3388cf148dba111’
运行结果:
由于HTTPRError是URLError的子类,所以需先写httperror的异常处理,否则一律认为是URLError的异常。urllib的异常处理就写到这啦,希望大家都不会出现异常,更多关于python爬虫urllib异常处理的资料请关注脚本之家其它相关文章!
来源:https://blog.csdn.net/weixin_46277553/article/details/123133361
猜你喜欢
- 来蓝色一直都在潜水,很少写帖子,太对不起大家了.下面和大家探讨一个话题,希望能引起大家的兴趣.关于H1,一直都想和大家讨论H1用法的问题,可
- 数据完整性是任何数据库系统要保证的重点。不管系统计划得有多好,空数据值的问题总是存在。本文探讨了在SQL Server中处理这些值时涉及的3
- 如何向 pandas.DataFrame 添加新的列或行通过指定新的列名/行名来添加,或者用pandas.DataFrame的assign(
- 有个简单的方法,使用display:table, display:table-row and display:table-cell 就可以实
- 前言不管是做开发还是做过网站的朋友们,应该对于User Agent一点都不陌生,User Agent 中文名为用户代理,简称 UA,它是一个
- asp代理采集代码如下:<%Function ProxyPage(url) Set Retrieval&
- 本文主要是关于matplotlib的一些基本用法。Demoimport matplotlib.pyplot as pltimport num
- 原理使用python win32 库 调用word底层vba,将word转成pdf安装pywin32pip install pywin32p
- 楔子我们知道python的执行效率不是很高,而且由于GIL的原因,导致python不能充分利用多核CPU。一般的解决方式是使用多进程,但是多
- 什么是存储过程呢?定义:将常用的或很复杂的工作,预先用SQL语句写好并用一个指定的名称存储起来, 那么以后要叫数据库提供与已定义好的存储过程
- 本篇阅读的代码片段来自于30-seconds-of-python。1. count_bydef count_by(arr, fn=lambd
- 什么是 YARPYARP (另一个反向代理) 设计为一个库,提供核心代理功能,你可以根据应用程序的特定需求进行自定义。YARP 是使用 .N
- 本文实例讲述了Python编程生成随机用户名及密码的方法。分享给大家供大家参考,具体如下:方案一:import randomglobal u
- 在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式,但是随着数据规模的增大,正则表达式就显得有些心有余力不足了。正则表达式
- 随着CSS3越来越热,CSS3动画也逐渐受到大家的关注。这次有幸修改淘宝网全站页头,小小地应用了下(详见http://www.taobao.
- torch.nn.CrossEntropyLoss交叉熵损失本文只考虑基本情况,未考虑加权。torch.nnCrossEntropyLoss
- 1、场景描述通常来说,前端要拿到excel数据,都是先上传存储数据库,然后再请求后端接口,获取数据。但有100个产品经理,就会有101个不同
- 问:假如我的一个表里含有(a,b,c,d)和(a,b)形成组合键。我能在列值中写这个查询吗?例如: select a,c,d from my
- 使用Python的第三方库pyautogui,PyAutoGUI是一个纯Python的GUI自动化工具,其目的是可以用程序自动控制鼠标和键盘
- 0. 学习目标在顺序存储方式中,根据数据元素的序号就可随机存取表中任何一个元素,但同时在插入和删除运算需要移动大量的元素,造成算法效率较低。