python爬虫教程之bs4解析和xpath解析详解
作者:A.way30 发布时间:2023-09-22 19:43:06
bs4解析
原理:
1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
如何实例化BeautifulSoup对象:
from bs4 import BeautifulSoup
BeautifulSoup(参数一,参数二)
参数一为文件描述符,参数二为解析器,一般为’lxml’
一对象的实例化:
1.将本地的html文档中的数据加载到该对象中
fp = open( './test.html','r',encoding='utf-8')
soup=BeautifulSoup(fp,'lxml')
2.将互联网上获取的页面源码加载到该对象中
page_text =response.text
soup=BeatifulSoup(page_text,'lxml')
soup指初始化的BeautifulSoup对象
用于数据解析的方法和属性:
1.soup.tagName:返回的是文档中第一次出现的tagName对应的标签
2.soup.find():
(1).find( ‘tagName’):等同于soup.tagName
(2).属性定位:soup.find(‘div’,class_/id/或者其他属性=‘song’)
定位到< div class=“song”>/< div id=“song”>的标签下
class如果没有加_则代表关键字
3.soup.find_all(‘tagName’):返回符合要求的所有标签(列表)
soup对象:
<div class="tang">
<ul>
<li><a href="http://www.baidu.com" rel="external nofollow" title= "ging">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></1i>
<li><a href="http://www.163.com" rel="external nofollow" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></1i>
<li><a href=" http://ww.126.com" rel="external nofollow" alt="qi ">歧王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>
<li><a href="http: //www.sina.com" rel="external nofollow" class="du">杜甫</a></li>
<li><a href="http://www.dudu.com" rel="external nofollow" class="du">杜牧</a></li>
<li><b>杜小月</b></li>
<li><i>度蜜月</i></li>
<li><a href="http://ww.hana.com”id=" rel="external nofollow" feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>
</ul>
</div>
4.select:
- select(‘某种选择器(id,class,标签…选择器)’),返回的是一个列表。
标签什么都不加,class前面加. id前面加#
层级选择器:
>表示的是一个层级;空格表示的多个层级
soup.select( '.tang > ul > li > a')
soup.select( '.tang >ul a')
结果为:[<a href="http://www.baidu.com" title= "ging">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a>,
<a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a>,
<a href=" http://ww.126.com"alt="qi ">歧王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a>,
<a href="http: //www.sina.com" class="du">杜甫</a>,
<a href="http://www.dudu.com" class="du">杜牧</a>,
<a href="http://ww.hana.com”id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a>]
5.获取标签之间的文本数据:
-soup.a.text/string/get_text()
-text/get_text():可以获取某一个标签中所有的文本内容
-string:只可以获取该标签下面直系的文本内容
6.获取标签中属性值:
soup.a[‘属性值’]
print(soup.select( '.tang > ul > li > a') [0]['href'])
结果:
www.baidu.com
xpath解析
最常用且最便捷高效的一种解析方式。通用性。
xpath解析原理:
1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。
2调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
实例化一个etree对象:
from lxml import etree
-1.将本地的html文档中的源码数据加载到etree对象中:
etree.parse(filePath)
-2.可以将从互联网上获取的源码数据加载到该对象中
etree.HTML( 'page_text')
xpath( ‘xpath表达式’)
xpath表达式:(返回一个列表)
-/:表示的是从根节点开始定位。表示的是一个层级。
-//:表示的是多个层级。可以表示从任意位置开始定位。
-属性定位://div[@class=‘song’] tag[@attrname=‘attrvalue’]
-索引定位://div[@class=‘song’]/p[3]
索引从1开始的
取文本:
/text()获取的是标签中直系的文本内容
//text(标签中非直系的文本内容(所有的文本内容)
取属性:
/@attrName
eg:/img/@src
./表示定位到当前位置(局部解析)
多个xpath之间用|分割:
tree.xpath(’//div[@class=‘song’]/p[3] | //div[@class=‘song’]’)
来源:https://blog.csdn.net/m0_52656075/article/details/122896071
猜你喜欢
- 本文实例讲述了Python实现简单状态框架的方法。分享给大家供大家参考。具体分析如下:这里使用Python实现一个简单的状态框架,代码需要在
- 今天来给大家推荐一个Python当中超级好用的内置函数,那便是lambda方法,本篇教程大致和大家分享什么是lambda函数lambda函数
- 一、前言1.1 关于描述性统计分析概括地来说,描述性统计分析就是在收集到的数据的基础上,运用制表和分类,图形以及计算概括性数据来描述数据特征
- 如果MySQL服务器启用了二进制日志,你可以使用mysqlbinlog工具来恢复从指定的时间点开始 (例如,从你最后一次备份)直到现在或另一
- 最近在看红楼梦,看的诗词多了,时不时的也想来一句...这几天刚看看到了underscore.js的防抖和节流的部分,正好又去复习了这部分内容
- <title>动态序列比对</title> <script> function pairaln(seq1
- 运行环境:IIS脚本语言:VBScript数据库:Access/SQL Server数据库语言:SQL1.概要:不论是在论坛,还是新闻系统,
- Spyder本来还用得好好的,能正常使用,后来再关闭打开时,出现下面的蜘蛛网界面后,就无法显示操作界面了:后来在网上搜索了多种方法,甚至还将
- Any docsAny 是一种特殊的类型。静态类型检查器将所有类型视为与 Any 兼容,反之亦然, Any 也与所有类型相兼容。这意味着可对
- 传递函数创建传递函数有两种方式:import control as ctrl# 方式 1s = ctrl.tf('s')sy
- 首先说说什么是内存泄露,在一个进程中,如果某一块内存无法访问,且直到进程结束为止也无法释放,那么就发生了内存泄露。通常这种情况发生在C++之
- PDO::execPDO::exec — 执行一条 SQL 语句,并返回受影响的行数(PHP 5 >= 5.1.0, PECL pdo
- 前言通常我们的python代码都是遵循PEP8的规范化格式,目的是为了保持代码的一致性、可读性。,这里给大家推荐几个常用的静态代码检查工具,
- 本文实例讲述了Python基于聚类算法实现密度聚类(DBSCAN)计算。分享给大家供大家参考,具体如下:算法思想基于密度的聚类算法从样本密度
- Ajax 是异步的JavaScript和XML的简称,是一种更新页面某部分的机制。它赋予了你从服务器获取数据后,更新页面某部分的权力,从而避
- HTTPX是Python3的功能齐全的HTTP客户端,它提供同步和异步API,并支持HTTP/1.1和HTTP/2安装pip install
- SQL Server服务器的配置选项属于那种人们了解较少且经常误用的选项。当一个技术支持人员要求你按照某种方式调整一个选项、而另一个技术支持
- 北京时间2020年12月1日,JetBrain公司推出了二十周年第三个稳定版的IntelliJ IDEA 2020.3 。距离上一个稳定版I
- 目录前言简单介绍创建或连接数据库游标创建表插入查询查询总数查询所有查询第一条分页查询更新删除总结前言sqlite的官网 sqlite.org
- 本文实例讲述了js+ajax实现获取文件大小的方法。分享给大家供大家参考,具体如下:顾名思义,通过JS和Ajax来获取上传文件的大小,在上传