python 中 lxml 的 etree 标签解析
作者:autofelix 发布时间:2023-02-26 02:59:37
标签:python, lxml,etree,标签
一、安装
pip install lxml
二、创建标签
from lxml import etree
root = etree.Element('root')
三、添加子节点
from lxml import etree
root = etree.Element('root')
span = etree.SubElement(root, 'span')
四、删除子节点
from lxml import etree
root = etree.Element('root')
span = etree.SubElement(root, 'span')
root.remove(span)
五、删除所有子节点
from lxml import etree
root = etree.Element('root')
root.clear()
六、操作子节点
from lxml import etree
root = etree.Element('root')
span = etree.SubElement(root, 'span')
# 获取标签数
len(root)
# 获取标签索引号,如果有多个相同标签的话,可以区分
root.index(span)
# 按位置插入
root.insert(0, etree.Element('p'))
# 尾部添加
root.append(etree.Element('strong'))
七、获取父节点
获取标签父节点的两种方法:
from lxml import etree
root = etree.Element('root')
span = etree.SubElement(root, 'span')
# 获取父节点方法一
span.getparent().tag
# 获取父节点方法二,用列表获取子节点,再获取父节点
root[0].getparent().tag
八、创建属性
from lxml import etree
root = etree.Element('root')
root.set('title', '这是一个root标签')
九、获取属性
获取属性的三种方法
from lxml import etree
root = etree.Element('root')
# 获取属性方法一
root.get('title')
# 获取属性方法二,参考字典的操作
root.keys(),root.values(),root.items()
# 获取属性方法三,直接拿到属性存放的字典
root.attrib
十、设置标签文本
添加文本和追加文本
from lxml import etree
root = etree.Element('root')
# 标签内添加文本
root.text='i am autofelix'
# 标签后追加文本
root.tail = 'i am autofelix'
十一、xpath方法
from lxml import etree
root = etree.Element('root')
word = root.xpath('//text()')
word[0].getparent().tag
十二、判断文本类型
from lxml import etree
root = etree.Element('root')
word = root.xpath('//text()')
# 是否是text文本
word.is_text
# 是否是tail文本
word.is_tail
十三、字符串解析
from lxml import etree
html = etree.fromstring('<root>autofelix</root>')
html.tag
etree.tostring(html)
十四、XML解析
from lxml import etree
html = etree.XML('<root>autofelix</root>')
html.tag
etree.tostring(html)
十五、去除XML中的空行
from lxml import etree
# 去除xml文件里的空行
parser= etree.XMLParser(remove_blank_text=True)
root = etree.XML('<root> auto felix </root>', parser)
print etree.tostring(root)
十六、HTML解析
HTML方法,如果没有<html>和<body>标签,会自动补上
from lxml import etree
html = etree.HTML('<root>autofelix</root>')
etree.tostring(html)
十七、搜索和定位
from lxml import etree
root = etree.XML('<root><a class="uname">i am autofelix<b/><c/><b/></a></root>')
# findall操作返回列表
root.findall('a')[0].text
# find操作就相当与找到了这个元素节点,返回匹配到的第一个元素
root.find('.//a').text
# 配合列表解析
[ b.text for b in root.findall('.//a') ]
# 根据属性查询
root.findall('.//a[@class]')[0].tag
来源:https://blog.51cto.com/autofelix/5150324
0
投稿
猜你喜欢
- 最近做了wap站中的搜索结果页的改版,记录一下关于锚点链接的心得~关于锚点链接锚点链接一般用于比较长的网页,使用内部链接建立页内目录。单击目
- 1、对继承的理解继承(Inheritance) :代码复用的高级抽象继承是面向对象设计的精髓之一实现了以类为单位的高级抽象级别代码复用继承是
- 游戏规则用pygame动画实现神庙逃亡类似的小游戏,当玩家移动的时候躲避 * ,如果 * 命中玩家或者名字龙都会减速,玩家躲避 * 使更多的 * 打
- 今天逛论坛时看到有朋友问,是否有专门教Javascript的学校,这里想想把自己的一点建议和自己3年来的前端Javascript开发的经验跟
- 1. 用Dreamweaver 4.0轻松设计会自动弹性调整的网页 首先需要保证的是你的页面内容采用了表格的格式,然后打开你要编辑的页面,按
- 一:操作session1:session配置Session 的配置文件存储在config/session.php中,配置参数有:(1):配置
- 本文实例讲述了python实现上传样本到virustotal并查询扫描信息的方法。分享给大家供大家参考。具体方法如下:import simp
- 一 web框架的本质及自定义web框架我们可以这样理解:所有的Web应用本质上就是一个socket服务端,而用户的浏览器就是一个socket
- 本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考,具体如下:import urllib.requestimpo
- 前言最近在学习python 爬虫方面的知识,网上有一博客专栏专门写爬虫方面的,看到用urllib请求有道翻译接口获取翻译结果。发现接口变化很
- HTML 5基本思维概念形成于2003年,之后W3C对页面超文本应用技术工作小组(WHATWG)开发的HTML草图颇感兴趣,这个小组的开发人
- 本文实例讲述了Python基础之字符串常见操作。分享给大家供大家参考,具体如下:字符串基本操作切片# str[beg:end]# (下标从
- 写在前面从本节开始,计算机视觉教程进入第三章节——图像特征提取。在本章,你会见到一张简简单单的图片中
- 近日在月影的blog上找到一段代码。看了老半天没明白什么意思,倍受打击!不死心,于是仔细分析思考了好几次,才明白过来这段函数的意义。js果然
- 用Python实现学生信息管理系统,供大家参考,具体内容如下系统功能有:1.录入,查找,删除,修改学生信息2.学生成绩排名3.显示全部学生信
- 本文实例讲述了Python实现基于HTTP文件传输的方法。分享给大家供大家参考。具体实现方法如下:一、问题:因为需要最近看了一下通过POST
- Python json 错误xx is not JSON serializable解决办法在使用json的时候经常会遇到xxx
- 我就废话不多说了,大家还是直接看代码吧!stdi, stdo, stde = sys.stdin, sys.stdout, sys.stde
- WMI是Windows系统的一大利器,Python的win32api库提供了对WMI的支持,安装win32api即可使用 WMI。本例通过W
- 选择一个合适的编辑器,比如notepad++、VS、eclipse、sublime text等,选中要集体缩进的代码块,按Tab:集体缩进(