位置：首页>> 网络编程>> Python编程>> Python爬虫包BeautifulSoup异常处理（二）

Python爬虫包BeautifulSoup异常处理（二）

作者：SuPhoebe　　发布时间：2021-12-09 21:53:42　

标签：python,爬虫包,BeautifulSoup

面对网络不稳定，页面更新等问题，很可能出现程序异常的问题，所以我们要对程序进行一些异常处理。大家可能觉得处理异常是一个比较麻烦的活，但在面对复杂网页和任务的时候，无疑成为一个很好的代码习惯。

网页‘404'、‘500'等问题

try:
html = urlopen('http://www.pmcaff.com/2221')
except HTTPError as e:
print(e)

返回的是空网页

if html is None:
print('没有找到网页')

目标标签在网页中缺失

try:
#不存在的标签
content = bsObj.nonExistingTag.anotherTag
except AttributeError as e:
print('没有找到你想要的标签')
else:
if content == None:
print('没有找到你想要的标签')
else:
print(content)

实例

if sys.version_info[0] == 2:
from urllib2 import urlopen # Python 2
from urllib2 import HTTPError
else:
from urllib.request import urlopen # Python3
from urllib.error import HTTPError
from bs4 import BeautifulSoup
import sys

def getTitle(url):
try:
html = urlopen(url)
except HTTPError as e:
print(e)
return None
try:
bsObj = BeautifulSoup(html.read())
title = bsObj.body.h1
except AttributeError as e:
return None
return title

title = getTitle("http://www.pythonscraping.com/exercises/exercise1.html")
if title == None:
print("Title could not be found")
else:
print(title)

以上全部为本篇文章的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

来源：https://blog.csdn.net/u013007900/article/details/53819711

0

投稿

猜你喜欢

GoFrame基于性能测试得知grpool使用场景
前言摘要之前写了一篇 grpool goroutine池详解 | 协程管理收到了大家积极的反馈，今天这篇来做一下grpool的性能测试分析
mysql语法之DQL操作详解
DQL（Data Query Language），数据查询语言，主要是用来查询数据的，这也是SQL中最重要的部分！简单查询#DQL操作之基本
CSS实例讲解:地图提示
作者的BLOG：http://www.planabc.net/地图弹窗（map pop）具体演示运行代码框<!DOCTYPE html
javascript的var与let,const之间的区别详解
说到JavaScript中声明变量的几种方法也就是var、let、const了，let和const是es6中新增的命令。那么它们之间有什么区
PyCharm配置anaconda环境的步骤详解
PyCharm是一款很好用很流行的python编辑器。Anaconda是专注于数据分析的Python发行版本，包含了conda、Python
Golang使用lua脚本实现redis原子操作
目录[redis 调用Lua脚本](#redis 调用Lua脚本)[redis+lua 实现评分排行榜实时更新](#redis+lua 实现
pandas DataFrame索引行列的实现
python版本: 3.6pandas版本: 0.23.4行索引索引行有三种方法，分别是 loc iloc iximport pandas
Python教程之基本运算符的使用(上)
Python 运算符通常用于对值和变量执行操作。这些是用于逻辑和算术运算的标准符号。在本文中，我们将研究不同类型的 Python 运算符。&
ThinkPHP3.1.3版本新特性概述
ThinkPHP3.1.3版本有一些特性，还是值得关注的，下面来简单说下。1、异常方面的改进新版的ThinkPHP3.1.3重写了异常类Th
ie和firefox中css自动换行实现方法
自动换行问题,正常字符的换行是比较合理的,而连续的数字和英文字符常常将容器撑大,挺让人头疼,下面介绍的是CSS如何实现换行的方法对于div,
PHP json_encode中文乱码解决方法
相信很多人在使用Ajax与后台php页面进行交互的时候都碰到过中文乱码的问题。JSON作为一种轻量级的数据交换格式，备受亲睐，但是用PHP作
SQL 特殊语句(学习笔记)
【1】以XML 返回（1）未定义属性的 select logisticsId,logisticsName from LogisticsC
Mysql主从延时图解方法
1.忍受 * 第一种解决办法，很简单，无他，不管他，没有读到也没事。这时业务不需要任何改造，你好，我好，她也好~如果业务对于数据一致性要求不高
Python办公自动化之教你用Python批量识别发票并录入到Excel表格中
一、场景描述这里有以四张发票为例（辰哥网上搜的），将发票图片放到pic文件夹下。随便打开一张发票提取目标：金额、名称、纳税人识别号、开票人。
栅格:灵活应变
上文：栅格:一以贯之Jacci Howard Bear 的英文原文：http://desktoppub.about.com/od/grids
PHP数组中头部和尾部添加元素的方法(array_unshift,array_push)
对于数字索引数组来说，通过 array_push()函数向数组中添加元素。array_push()函数将数组当成一个栈，将传入的变量压入该数
免费开源百度编辑器(UEditor)使用方法
UEditor效果图一、简介UEditor是一个开源免费的编辑器，由百度web前端研发部开发所见即所得富文本web编辑器，具有轻量，可定制，
两大步骤教您开启MySQL 数据库远程登陆帐号的方法
1、确定服务器上的防火墙没有阻止 3306 端口 MySQL 默认的端口是 3306 ，需要确定防火墙没有阻止 3306 端口，否则远程是无
Python issubclass和isinstance函数的具体使用
Python 提供了如下两个函数来检查类型：issubclass(cls, class_or_tuple)：检查 cls 是否为后一个类或元
python中的列表与元组的使用
在python中的数据类型和控制流这篇文章中我们提到过列表，它是基本的数据类型之一。通俗来说，它就是用来存储一系列数据的。比如存储一个班级的

Python进程管理神器Supervisor详解

详解Python prometheus_client使用方式

python中添加模块导入路径的方法

pandas数据合并之pd.concat()用法详解

pytorch geometric的GNN、GCN的节点分类方式

python PyTorch参数初始化和Finetune

Python实现PS图像调整黑白效果示例

python实现图像全景拼接

cookies应对python反爬虫知识点详解

python获得文件创建时间和修改时间的方法

ExactScan Pro 19有哪些新功能？

数据库报错:Unknown column 'xxx' in 'where clause'问题的解决过程

抖音文字的力量听声答题如何过关

win10搜索框开启及关闭的方法

如何跟UI动效学PPT动画制作

excel怎么制作商务大气的纵向折线图?

ipad air2和nexus9哪个好?ipad air2和nexus9区别对比介绍

时空中的绘旅人酣甜二重奏活动怎么玩

暴走大侠双修作用是什么？进行双修方法一览

python3图片转换二进制存入mysql

手机版 网络编程 asp之家 www.aspxhome.com