python网络爬虫精解之pyquery的使用说明
作者:小狐狸梦想去童话镇 发布时间:2021-05-28 13:01:19
pyquery的使用
一、pyquery的介绍
使用pyquery需要在Web和了解jQuery的基础上,使用该CSS选择器。
二、pyquery的使用
1、初始化工作
使用pyquery初始化的方式有很多,传入的参数可以是字符串,也可以是URL和文件名,下面将一一介绍初始化方法。
字符串
html = '''
<html>
<head>
<meta charset="utf-8">
<title>test02.html</title>
<meta name="viewport" content="width=device-width, initial-scale=1.0">
</head>
<body>
<div id="container">
<iframe id="iframe" sandbox="allow-scripts" src="https://img.aspxhome.com/files/%E7%88%AC%E8%99%AB%E5%86%99%E4%BD%9C%E4%BB%A3%E7%A0%81%E6%B5%8B%E8%AF%95/test02.html"></iframe>
</div>
</body>
</html>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('title'))
【运行结果】
<title>test02.html</title>
URL
URL以CSDN首页地址为例:
from pyquery import PyQuery as pq
doc = pq(url = 'https://www.csdn.net/')
print(doc('title'))
【运行结果】
<title>CSDN - 专业开发者社区</title>
文件初始化
我们将以下字符串保存为一个HTML文件,通过文件的形式进行初始化。
【test02.html】
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
print(doc('title'))
【运行结果】
<title lang="eng">Harry Potter</title>
<title lang="eng">Learning XML</title>
2、查找节点
(1)查找子节点
查找子节点时需要用到find()方法,此时传入的参数是CSS选择器。
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
item = doc('book')
print(item)
lis1 = item.find('title')
lis2 = item.find('price')
print(lis1)
print(lis2)
【运行结果】
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book><book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book><title lang="eng">Harry Potter</title>
<title lang="eng">Learning XML</title>
<price>29.99</price>
<price>39.95</price>
可以看到,我们首先匹配的是book节点,然后匹配book节点下的子节点title和price。
其实使用find方法匹配的是所有的子孙节点,如果只是单纯匹配子节点可以使用children方法。
(2)匹配父节点
使用parent()方法,如果是要匹配祖先节点,则需要使用parents()方法。
(3)匹配兄弟节点
可以使用siblings()方法。
3、遍历
对于获取到的内容如果是单个节点,则可以直接转换为字符串类型,而对于获取到多个节点,因其类型为PyQuery类型,需要对获取到的数据进行遍历,这是需要调用items()方法。
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title').items()
print(items)
print(type(items))
for i in items:
print(type(i))
print(i)
【运行结果】
<generator object PyQuery.items at 0x000002B79E13EF48>
<class 'generator'>
<class 'pyquery.pyquery.PyQuery'>
<title lang="eng">Harry Potter</title>
<class 'pyquery.pyquery.PyQuery'>
<title lang="eng">Learning XML</title>
4、获取信息
(1)获取属性
使用attr()方法
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
print(i.attr('lang'))
【运行结果】
eng
eng
遍历获取到的数据,就能获得所有title节点的land属性值。
(2)获取文本
使用text()方法
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
print(i.text())
【运行结果】
Harry Potter
Learning XML
同样是遍历,获取到每一个title节点的文本值。
5、节点操作
(1)为某个节点添加或删除一个class
调用的方法为addClass和removeClass
from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
print(i)
i.addClass('book01')
print(i)
i.removeClass('book01')
print(i)
【运行结果】
<title lang="eng">Harry Potter</title>
<title lang="eng" class="book01">Harry Potter</title>
<title lang="eng" class="">Harry Potter</title>
<title lang="eng">Learning XML</title>
<title lang="eng" class="book01">Learning XML</title>
<title lang="eng" class="">Learning XML</title>
可以看到,首先是打印最初始的title节点,加上class属性后再次打印,去掉class属性后再次打印。
(2)attr、text、html
attr:用来改变属性值;
text:用来改变文本值;
html:用来改变节点值;
(3)remove
移除不需要的节点值,将整个节点移除。
6、伪类选择器
支持多种伪类选择器,例如选择第一个节点、最后一个节点、奇数节点、偶数节点、以及包含指定文本的节点等。
来源:https://blog.csdn.net/gets_s/article/details/120400037


猜你喜欢
- 今天,在在使用 pycharm 的使用,进行创建 python的时候,发现使用默认的创建的选项使用的python 3环境 。而我系统默认的p
- k-means 聚类算法思想先随机选择k个聚类中心,把集合里的元素与最近的聚类中心聚为一类,得到一次聚类,再把每一个类的均值作为新的聚类中心
- 1.创建vue项目vue create demodemo是项目名称2.安装axios进入demo里面打开终端(黑窗口),执行npm inst
- 本文实例讲述了Python实现堆排序的方法。分享给大家供大家参考,具体如下:堆排序作是基本排序方法的一种,类似于合并排序而不像插入排序,它的
- 以上述图片举例,要求 相对 的顺时针夹角。注意:这里使用图像坐标系1 定义求顺时针角度的函数 import numpy as npdef
- 一、前言很多时候,我们都有远程控制电脑的需求。比如正在下载某样东西,需要让电脑在下载完后关机。或者你需要监控一个程序的运行状况等。今天我们就
- MySql批量插入优化Sql执行效率实例详解itemcontractprice数量1万左右,每条itemcontractprice 插入5条
- 前言Kettle下载与安装保姆级教程(最新)Kettle下载安装pdi-ce-7.1.0.0-12教程win10环境安装kettle与lin
- 我们知道IE6是不支持透明的PNG的,这无疑限制了网页设计的发挥空间.然而整个互联网上解决这个IE6的透明PNG的方案也是多不胜数,从使用I
- Python装饰器语法糖代码示例####装饰器的固定格式##普通版本def timer(func): def inner(*ar
- 在学习redis过程中提到一个缓存击穿的问题, 书中参考的解决方案之一是使用布隆过滤器, 那么就有必要来了解一下什么是布隆过滤器。在参考了许
- 1、es的批量插入这是为了方便后期配置的更改,把配置信息放在logging.conf中用elasticsearch来实现批量操作,先安装依赖
- 经常看到有人在网上询问关于imread()函数读取图片失败的问题。今天心血来潮,经过实验,总结出imread()调用的四种正确姿势。通常我要
- 程序员的时间很宝贵,Python这门语言虽然足够简单、优雅,但并不是说你使用Python编程,效率就一定会高。要想节省时间、提高效率,还是需
- 将数组传递给前台模板:1.def modifyBtn(req,modifyip): print modifyip c
- 本文实例讲述了python求pi的方法,是一篇翻译自国外网站的文章,分享给大家供大家参考。具体实现方法如下:#_*_ coding=utf-
- 一、命名元祖在python基础中, 我们学习元祖的时候,取元祖内部的元素都是通过索引来进行取值的。但是这种取值方式不够友好, 所以我们引入命
- 最近在一个python工具中需要实现串口自动触发工作的功能,之前只在winform上面实现,今天使用python试试。这里简单记一下:首先用
- 引言:本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况。在学
- 今天早上用pycharm启动django工程的时候,一直卡在如下提示:Performing system checks...System c