Python3 xml.etree.ElementTree支持的XPath语法详解
作者:_荣耀之路_ 发布时间:2021-08-06 07:29:44
标签:Python3,xml.etree.ElementTree,XPath
xml.etree.ElementTree可以通过支持的有限的XPath表达式来定位元素。
语法
ElementTree支持的语法如下:
语法 | 说明 |
tag | 查找所有具有指定名称tag的子元素。例如:country表示所有名为country的元素,country/rank表示所有名为country的元素下名为rank的元素。 |
* | 查找所有元素。如:*/rank表示所有名为rank的孙子元素。 |
. | 选择当前元素。在xpath表达式开头使用,表示相对路径。 |
// | 选择当前元素下所有级别的所有子元素。xpath不能以“//”开头。 |
.. | 选择父元素。如果视图达到起始元素的祖先,则返回None(或空列表)。起始元素为调用find(或findall)的元素。 |
[@attrib] | 选择具有指定属性attrib的所有子元素。 |
[@attrib='value'] | 选择指定属性attrib具有指定值value的元素,该值不能包含引号。 |
[tag] | 选择所有具有名为tag的子元素的元素。 |
[.='text'] | Python3.7+,选择元素(或其子元素)完整文本内容为指定的值text的元素。 |
[tag='text'] | 选择元素(或其子元素)名为tag,完整文本内容为指定的值text的元素。 |
[position] | 选择位于给定位置的所有元素,position可以是以1为起始的整数、表达式last()或相对于最后一个位置的位置(如:last()-1) |
方括号表达式前面必须有标签名、星号或者其他方括号表达式。position前必须有一个标签名。
简单示例
#!/usr/bin/python
# -*- coding:utf-8 -*-
import os
import xml.etree.cElementTree as ET
xml_string="""<?xml version="1.0"?>
<data>
<country name="Liechtenstein">
<rank updated="yes">2</rank>
<year>2008</year>
<gdppc>141100</gdppc>
<neighbor name="Austria" direction="E"/>
<neighbor name="Switzerland" direction="W"/>
</country>
<country name="Singapore">
<rank updated="yes">5</rank>
<year>2011</year>
<gdppc>59900</gdppc>
<neighbor name="Malaysia" direction="N"/>
</country>
<country name="Panama">
<rank updated="yes">69</rank>
<year>2011</year>
<gdppc>2011</gdppc>
<neighbor name="Costa Rica" direction="W"/>
<neighbor name="Colombia" direction="E"/>
</country>
<country name="Washington">
<rank updated="yes">55</rank>
<gdppc>13600</gdppc>
</country>
</data>
"""
root=ET.fromstring(xml_string)
#查找data下所有名为country的元素
for country in root.findall("country"):
print("name:"+country.get("name"))
#查找country下所有名为year的元素
year=country.find("./year")
if year:
print("year:"+year.text)
#查找名为neighbor的孙子元素
for neighbor in root.findall("*/neighbor"):
print("neighbor:"+neighbor.get("name"))
#查找country下的所有子元素
for ele in root.findall("country//"):
print(ele.tag)
#查找当前元素的父元素,结果为空
print(root.findall(".."))
#查找与名为rank的孙子元素同级的名为gdppc的元素
for gdppc in root.findall("*/rank/../gdppc"):
print("gdppc:"+gdppc.text)
#查找data下所有具有name属性的子元素
for country in root.findall("*[@name]"):
print(country.get("name"))
#查找neighbor下所有具有name属性的子元素
for neighbor in root.findall("country/*[@name]"):
print(neighbor.get("name"))
#查找country下name属性值为Malaysia的子元素
print("direction:"+root.find("country/*[@name='Malaysia']").get("direction"))
#查找root下所有包含名为year的子元素的元素
for country in root.findall("*[year]"):
print("name:"+country.get("name"))
#查找元素(或其子元素)文本内容为2011的元素(Python3.7+)
#print(len(root.findall("*[.='2011']")))
#查找元素(或其子元素)名为gdppc,文本内容为2011的元素
for ele in root.findall("*[gdppc='2011']"):
print(ele.get("name"))
#查找第二个country元素
print(root.find("country[2]").get("name"))
补充知识:python lxml etree xpath定位
etree全称:ElementTree 元素树
用法:
import requests
from lxml import etree
response = requests.get('html')
res = etree.HTML(response.text) #利用 etree.HTML 初始化网页内容
resp = res.xpath('//span[@class="green"]/text()')
来源:https://blog.csdn.net/asty9000/article/details/93598481


猜你喜欢
- 开始第一篇。老规矩,先无聊的谈论天气一类的话题。十一长假,天气也终于开始有些秋天的味道,坐在屋里甚至觉得需要热咖啡。话说两年前也是在国庆假期
- 代码如下import pandas as pdimport matplotlib.pyplot as pltimport numpy as
- 第一类人,用户体验无所不能。第二类人,用户体验无所不包括。第三类人,用户体验只是指导思想。用户研究通常是做创新的工作,也就注定只少数有财力、
- 最近一直在用TF做CNN的图像分类,当softmax层得到预测结果后,我希望能够看到预测结果,以便和标签之间进行比较。特此补上,以便自己记忆
- 下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最基础的内容html_doc = &qu
- 前言本文主要给大家介绍了关于python3 smtplib通过qq邮箱发送邮件的相关内容, smtplib模块是smtp简单邮件传输协议客户
- 将SQL Server中所有表的列信息显示出来: SELECT SysObjects.Name as tb_name, SysColumns
- 1 界面美化1.1 Chinese (Simplified) | 简体中文1.2 vscode-icons | 美化图标1.3 Bracke
- 前言大家应该都有所体会,对于字符串型的IP存入数据库中,实在是个即浪费空间又浪费性能的家伙,所以可爱的人们想出来将IP转换为整型存储。MyS
- 本文记录的要实现的功能类似于 MySQL 中的 ORDER BY,上个项目中有遇到这样的一个需求。 要求:从两个不同的表中获取各自的4条数据
- adminadmin 是 Django 自带的后台管理组件,你可以在 admin 中执行增删改查等操作。它以可视化的方式让你来操纵模型表,十
- 摘要:Ffrpc可以很方便的构建c++ server, 在网游服务器程序开发中,进程间通讯非常的重要,比如gateserver和gamese
- 1、需要的环境Python2.XRequests 库2、单字段发送单个文件在requests中发送文件的接口只有一种,那就是使用reques
- 从MySQL支持Unicode后,为了与时俱进,我们的web程序也开始考虑用UTF8了。其实UTF8也用了好几年了,程序基本能跑,没什么大问
- 先把要抓取的网络地址列在单独的list文件中https://www.jb51.net/article/83440.htmlhttps://w
- 简介PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库PyMySQL 遵循 Python 数据库 API
- 各位想必都知道,onfocus="this.blur()"这条代码能消除链接时的虚线框,但你有没有想过,如果你的网页上有
- 前言之前一直写不出来,这周周日花了一下午终于弄懂了, 顺便放博客里,方便以后忘记了再看看。 要实现的是输入一张 图,起点,终点,输出起点和终
- pandas处理大数据的限制现在的数据科学比赛提供的数据量越来越大,动不动几十个G,甚至上百G,这就要考验机器性能和数据处理能力。Pytho
- 本文研究的是re模块findall()函数的相关内容,首先看看实例代码:>>> import re >>>