Python爬虫网页元素定位术
作者:梦想橡皮擦 发布时间:2023-07-25 16:28:00
实战场景
初学 Python 爬虫,十之八九大家采集的目标是网页,因此快速定位到网页内容,就成为我们面临的第一道障碍,本篇博客就为你详细说明最易上手的网页元素定位术,学完就会系列。
本文核心使用到的是 Beautiful Soup 模块,因此我们用来做测试采集的站点,也是其官网(现阶段爬虫采集越来越严格,很多站点不能在采集了,很容易被封杀,只能学谁就采集谁了)
官方站点:
www.crummy.com/software/BeautifulSoup/
Beautiful Soup 在 Python 爬虫圈知名度极高,而且非常好用,它是一款 Python 解析库,主要用于将 HTML 标签转换为 Python 对象树,然后让我们从对象树中提取数据。
模块的安装及其简单:
pip install bs4 -i 国内任意源即可
未来安装任何模块,都尽量使用国内源,速度快稳定。
该模块包名称为 bs4,安装的时候需要特别注意下。
基础用法如下所示
import requests
from bs4 import BeautifulSoup
def ret_html():
"""获取HTML元素"""
res = requests.get('https://www.crummy.com/software/BeautifulSoup/', timeout=3)
return res.text
if __name__ == '__main__':
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
print(soup)
其中需要注意的就是模块导入代码,以及实例化 soup
对象时,在 BeautifulSoup
类的构造函数中传递的两个参数,一个是待解析的字符串,另一个是解析器,官方建议的是 lxml
,因其解析速度快。
上述代码输出的内容如下所示,看上去就是普通的 HTML 代码文件。
而且我们可以调用 soup
对象的 soup.prettify()
方法,可以将 HTML 标签进行格式化操作,这样你就可以在存储到外部文件的时候,让其 HTML 代码进行美观。
BeautifulSoup 模块的对象说明
BeautifulSoup 类可以将 HTML 文本解析成 Python 对象树,而这里面又包括最重要的四种对象,分别是 Tag
,NavigableString
,BeautifulSoup
,Comment
对象,接下来我们一一介绍。
BeautifulSoup 对象
该对象本身就代表整个 HTML 页面,而且实例化该对象的时候,还会自动补齐 HTML 代码。
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
print(type(soup))
Tag 对象
Tag 是标签的意思,Tag 对象就是网页标签,或者叫做网页元素对象,例如获取 bs4 官网的 h1 标签对象,代码如下所示:
if __name__ == '__main__':
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
# print(soup.prettify()) # 格式化 HTML
print(soup.h1)
得到的也是网页中的 h1 标签:
<h1>Beautiful Soup</h1>
用 Python 中的 type 函数,可以查看其类型,代码如下:
print(soup.h1)
print(type(soup.h1))
此时得到的可不是一个字符串,而是一个 Tag 对象。
<h1>Beautiful Soup</h1>
<class 'bs4.element.Tag'>
既然是 Tag 对象,那就会具备一些特定的属性值
获取标签名称
print(soup.h1)
print(type(soup.h1))
print(soup.h1.name) # 获取标签名称
通过 Tag 对象获取标签的属性值
print(soup.img) # 获取网页第一个 img 标签
print(soup.img['src']) # 获取网页元素DOM的属性值
通过 attrs 属性获取标签的所有属性
print(soup.img) # 获取网页第一个 img 标签
print(soup.img.attrs) # 获取网页元素的所有属性值,以字典形式返回
以上代码的所有输出如下所示,可以任意选择标签进行练习。
<h1>Beautiful Soup</h1>
<class 'bs4.element.Tag'>
h1
<img align="right" src="10.1.jpg" width="250"/>
{'align': 'right', 'src': '10.1.jpg', 'width': '250'}
NavigableString 对象
NavigableString 对象获取的是标签内部的文字内容,例如p
标签,在下述代码中提取的是我是橡皮擦
<p>我是橡皮擦</p>
获取该对象也非常容易,使用 Tag 对象的 string 属性即可。
nav_obj = soup.h1.string
print(type(nav_obj))
输出结果如下所示:
<class 'bs4.element.NavigableString'>
如果目标标签是一个单标签,会获取到 None 数据
除了使用对象的string
方法外,还可以使用text
属性和get_text()
方法来获取标签内容
print(soup.h1.text)
print(soup.p.get_text())
print(soup.p.get_text('&'))
其中 text
是获取所有子标签内容的合并字符串,而get_text()
也是相同的效果,不过使用get_text()
可以增加一个分隔符,例如上述代码的&
符号,还可以使用,strip=True 参数去除空格。
Comment 对象
BeautifulSoup 对象和 Tag 对象支持标签查找方法,具体内容如下所示。
find() 方法和 find_all() 方法
调用 BeautifulSoup 对象和 Tag 对象的find()
方法,可以在网页中找到指定对象,
该方法的语法格式如下:
obj.find(name,attrs,recursive,text,**kws)
方法的返回结果是查找到的第一个元素,如果没查询到,返回 None。 参数说明如下:
name
:标签名称;attrs
:标签属性;recursive
:默认搜索所有后代元素;text
:标签内容。
例如我们继续在上文请求的网页中,查找a
标签,代码如下:
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
print(soup.find('a'))
也可以使用attrs
参数进行查找,代码如下:
html_str = ret_html()
soup = BeautifulSoup(html_str, 'lxml')
# print(soup.find('a'))
print(soup.find(attrs={'class': 'cta'}))
find()
方法还提供了一些特殊的参数,便于直接查找,例如可以使用id=xxx
,查找属性中包含 id
的标签,可以使用class_=xxx
,查找属性中包含class
的标签。
print(soup.find(class_='cta'))
与find()
方法成对出现的是find_all()
方法,看名称就能知道其返回结果收是全部匹配标签,语法格式如下:
obj.find_all(name,attrs,recursive,text,limit)
其中重点说明一下limit
参数,它表示最多返回的匹配数量,find()
方法可以看作limit=1
,这样就变得容易理解了。
来源:https://juejin.cn/post/7086263307195121671
猜你喜欢
- 客户强烈要求使用淘宝的首页商品分类效果,很BT~,没辙就满足一下人家的需求。通过淘宝案例,立即想到了显示/隐藏层的效果,于是在DW中画了几个
- Access method(访问方法):此步骤包括从文件中存储和检索记录。Alias(别名):某属性的另一个名字。在SQL中,可以用别名替换
- [pre]REPAIR [LOCAL | NO_WRITE_TO_BINLOG] TABLE[/pre][pre] tbl_name[,tb
- 前言我们将利用 Beautiful Soup 模块的搜索功能,根据标签名称、标签属性、文档文本和正则表达式来搜索。搜索方法Beautiful
- [Q]怎么样查询特殊字符,如通配符%与_ [Q]如何插入单引号到数据库表中 [Q]怎样设置事务一致性 [Q]怎么样利用光标更新数据 [Q]怎
- chatGPT已经爆火一段时间了,我想大多数的开发者都在默默的在开发和测试当中,可能也是因为这个原因所以现在很难找到关于开发中遇到的一些坑或
- 安装完 Oracle11g 之后,想打开自带的 SQL Plus 来学习,然后按照提示用 sys 用户来连接数据库,可输了好几次都提示一个错
- 在上一篇博客中,已经将环境搭建好了。现在,我们利用搭建的环境来运行一条测试脚本,脚本中启动一个计算器的应用,并实现加法的运算。创建模拟器在运
- 阅读上一篇:WEB前端开发经验总结 ⅠWEB标准篇现在我们接着来讲怎么在实际开发中结合我前面所讲的理论来开发制作页面吧。现在就来看看我们要制
- 1. 确认已经安装了NT/2000和SQL Server的最新补丁程序,不用说大家应该已经安装好了,但是我觉得最好还是在这里提醒一下。2.
- 俺觉得自 己试着写写sql,调试调试还是有帮助的,读人家sql例子好像读懂了,自己写就未 必思路正确,调试得通,写得简洁。 这篇文字在网上被
- 简单的Tensorflow验证码识别应用,供大家参考,具体内容如下1.Tensorflow的安装方式简单,在此就不赘述了.2.训练集训练集以
- import webbrowser as webimport timeimport oscount=0while count<10:&
- 本文实例讲述了Python企业编码生成系统之主程序模块。分享给大家供大家参考,具体如下:一 点睛主程序模块包括三部分:1 主程序初始化2 主
- 分割单词将一个标识符分割成若干单词存进列表,便于后续命名法的转换先引入正则表达式包import re至于如何分割单词看个人喜好,如以常见分隔
- 一、INSERT和REPLACEINSERT和REPLACE语句的功能都是向表中插入新的数据。这两条语句的语法类似。它们的主要区别是如何处理
- 很对编程语言都支持递归函数,Go语言也不例外,所谓递归函数指的是在函数内部调用函数自身的函数,从数学解题思路来说,递归就是把一个大问题拆分成
- 装饰器通用模型def wrapper(fn): def inner(*args, **kwargs):  
- 一、利用外键约束更新MySQL中的数据现在,最流行的开源关系型数据库管理系统非MySQL莫属,而MySQL又支持多个存储引擎,其中默认的也是
- 根据Django官方文档介绍:A one-to-one relationship. Conceptually, this is simila