python操作xml文件示例
发布时间:2022-06-17 22:38:28
标签:python,xml
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
#print system_node.nodeName+' id='+system_node.getAttribute('id')
system_id = system_node.getAttribute("id")
system_name = system_node.getAttribute("name")
#print 'system_name:%s'%system_name
section_nodes = system_node.getElementsByTagName("section")
for section_node in section_nodes:
section_id = section_node.getAttribute('id')
section_name = section_node.getAttribute('name')
#print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
#print ' '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
seed_nodes = section_node.getElementsByTagName('seed')
for seed_node in seed_nodes:
seed = {}
seed['crawl_cycle'] = crawl_cycle
seed['system_id'] = int(system_id)
seed['system_name'] = system_name
seed['section_id'] = int(section_id)
seed['section_name'] = section_name
seed_id = seed_node.getAttribute('id')
seed['seed_id'] = int(seed_id)
#print ' '+seed_node.nodeName+' '+'id='+seed_id
userblog_url_node = seed_node.getElementsByTagName('userblog_url')
userblog_url = userblog_url_node[0].childNodes[0].nodeValue
seed['userblog_url'] = userblog_url
#print ' '+'userblog_url'+' '+userblog_url
print '-------------------------------------------'
print 'system_id:%d' % seed['system_id']
print 'system_name:%s'%seed['system_name']
print ' section_id:%d' % seed['section_id']
print ' section_name:%s' % seed['section_name']
print ' seed_id:%d' %seed['seed_id']
print ' userblog_url:%s' %seed['userblog_url']
print '========================='
seed_list.append(seed)
print seed_list[k]
k += 1
os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
<system id="1" name="新浪">
<section id="1" name="娱乐">
<crawl_cycle> </crawl_cycle>
<seed id="1">
<userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
</seed>
<seed id="2">
<userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
</seed>
<seed id="3">
<userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
</seed>
</section>
<section id="2" name="读书">
<crawl_cycle> </crawl_cycle>
<seed id="11">
<userblog_url>http://aaa.com.cn/twocold</userblog_url>
</seed>
<seed id="12">
<userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
</seed>
</section>
</system>
</seeds>


猜你喜欢
- 前言今天给大家分享一些Python的基础知识,想要盖好大房子,不把地基打扎实打牢怎么行呢?所以,今天咱们就来学习基础知识,这样后期学习Pyt
- 前言进程之间通信与线程同步是一个历久弥新的话题,对编程稍有了解应该都知道,但是细说又说不清。一方面除了工作中可能用的比较少,另一方面就是这些
- 1、说明当确定没有异常后,还需要做一些事情可以使用else语句。注意:try中没有异常,else之后的代码才会被执行。2、实例while T
- 使用库元素必须首先在DW中正确建立站点。 库被设计用来使重复性的工作更快、更容易并尽可能地无差错。 任
- 装完数据库清理一些默认账号的时候不小心把root删除了,flush privileges 之后的新 root 忘了grant任何权限,查看m
- Java timezone设置和mybatis连接数据库时区设置JVM时区设置springboot工程运行时,需要指定时区,这样获取的时间才
- --******************************************************* --* 清空所有表中的数
- 一、前言MySQL 中可以使用IFNULL函数判断一个值是否不为空。MySQL IFNULL 函数是 MySQL 控制流函数之一,它接受两个
- 安装模块如果使用的是Linux系统,并且安装了pip,可以直接使用pip安装xlrd, xlwt:pip install xlwtpip i
- select * from (select t.*, row_number() over(order by 列 desc) r from 表
- 本文实例讲述了Python求两个文本文件以行为单位的交集、并集与差集的方法。分享给大家供大家参考。具体实现方法如下:s1 = set(ope
- 背景有时本地服务器的时间不准了,需要同步互联网上的时间。解决方案NTP时间同步,找到一些可用的NTP服务器进行同步即可。通过获取一些大型网站
- 随着3G的普及,越来越多的人使用手机上网。移动设备正超过桌面设备,成为访问互联网的最常见终端。于是,网页设计师不得不面对一个难题:如何才能在
- MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当 * 能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似
- 这篇文章主要介绍了基于Django实现日志记录报错信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- 一、技术路线requests:网页请求BeautifulSoup:解析html网页re:正则表达式,提取html网页信息os:保存文件imp
- 一、控制用户存取 1、创建修改用户Creating Users Create/alter user new_user identified
- 目录什么是 PyMySQL?PyMySQL 安装数据库连接实例:创建数据库表数据库插入操作数据库查询操作数据库更新操作删除操作执行事务错误处
- # -*- coding: utf-8 -*-import pymysqlimport xlrd# import codecs#连接数据库c
- 文章背景:某天,我的一个同事给我看了CSDN上面的一篇关于编程语言排行榜的文章,里面我看到VB还是排名很不错的,我就说,asp(vbscri