解决python将xml格式文件转换成txt文件的问题(xml.etree方法)
作者:小k同学! 发布时间:2021-10-21 02:51:13
标签:python,xml,xml.etree,txt文件
概述
先来介绍一下xml格式的文件,从数据分析的角度去看xml格式的数据集,具有以下的优点开放性(能在任何平台上读取和处理数据,允许通过一些网络协议交换xml数据)、简单性(纯文本,能在不同的系统之间交换数据)、结构和内容分离(不同于HTML,数据的显示和数据本身是分开的)、可扩展性(派生出其他标记语言)
问题描述
那么我们在进行数据分析的时候,如何运用xml里面的数据呢?
我们就需要将这类文件转化成其他类型的文件。
(其实我认为说成提取xml的数据组成新的类型文件比较好一点)就我个人的观点,处理这方面的问题有点类似于网络爬虫,但不同于爬虫的是不需要考虑IP代理地址的问题(反爬确实是一个很难处理的问题)
问题解决方案
xml格式文件显示内容大致如下:
import os
import sys
import xml.etree.ElementTree as ET
import glob
def xml_to_txt(indir, outdir):
os.chdir(indir) # indir为xml文件来源的文件夹,outdir为转换的txt文件存储路径
annotated = os.listdir('.') # 返回包含目录中文件名称的列表
print(annotated)
for i, file in enumerate(annotated):
file_save = file.split('.')[0] + '.txt' #split将文件名与后缀名划分开来
file_txt = outdir + "\\"+file_save
f_w = open(file_txt, 'w')
in_file = open(file,encoding='UTF-8')
tree = ET.parse(in_file)
root = tree.getroot()
# 以下代码可忽略,你要在xml数据集上找到自己所需要数据对应的标签,想办法将其赋予一个变量,再将其写入新文件里就ok了
for value in root.iter('xxx'):
value = value.text
f_w.write(value)
f_w.write('\n\n')
还有我要说几句这个方法还是挺好用的,在你处理一个包含很多.xml文件夹的时候,能够直接读取所有xml文件,这样处理起来也比较方便。
来源:https://blog.csdn.net/silent1cat/article/details/120255366


猜你喜欢
- CSRF全拼为Cross Site Request Forgery,译为跨站请求伪造。CSRF指攻击者盗用了你的身份,以你的名义发送恶意请求
- 抛开数据库,生活中的方言是什么?方言就是某个地方的特色语言,是一种区别于其它地方的语言,只有你们这一小块地方能听懂,出了这个地方又是另一种方
- JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。JSON 函数使用 JSON
- python和PHP相比较,python适合做爬虫。原因如下抓取网页本身的接口相比与其他静态编程语言,如java,c#,C++,python
- 使用pycharm创建新项目,使用虚拟环境,但是进入到项目的cainiao_guoguo_health\venv\Scripts目录启动虚拟
- 让左模糊查询也能走索引测试表USER_INFO表数据以及结构如下有一个USER_NAME字段的索引有个业务需求,需要模糊搜索出用户名后几位有
- 转发时请保留此声明信息,这段声明不并会影响你的速度! @author:  
- 下列语句部分是Mssql语句,不可以在access中使用。 SQL分类: DDL—数据定义语言(CREATE,ALTER,DROP,DECL
- 本文针对Python time模块进行分类学习,希望对大家的学习有所帮助。一.壁挂钟时间1.time()time模块的核心函数time(),
- argparse是python用于解析命令行参数和选项的标准模块。很多时候,需要用到解析命令行参数的程序,目的是在终端窗口输入训练的参数和选
- 如下所示:' '.join(line.split())例如:'line dd',运行line.split()
- 前言之前缺乏移动端的经验。一直不知道上拉加载,下拉刷新是怎么实现的。现在正好有个产品有这样一个需求。想了一会没有思路。就去找插件。啥vue-
- 曾经有许多创造性的logo设计案例,logo设计资源和logo设计指导张贴在互联网的各个角落。这些帮助会为你的logo设计创造一个功能强大的
- 字段是逗号分隔开的数组如何查询匹配数据方式一:CHARINDEX***()*****SELECT *&n
- 源码安装Python第三方库几乎都可以在github或者 pypi上找到源码。源码包格式大概有zip 、 tar.zip、 tar.bz2。
- 先把这个script加到你的页面里:http://code.google.com/p/doufu/source/browse/trunk/n
- 利用Python生成PDF文件时,对比了fpdf和reportlab两个库。fpdf最新更新还是2015年,另外reportlab的资料网上
- 本文实例讲述了Python实现自动登录百度空间的方法。分享给大家供大家参考,具体如下:开发环境:Fedora12 + Python2.6.2
- 在网上down了个web项目,在 IntelliJ IDEA 这个编辑器里面跑起来,但是发现domain文件夹下的xml文件都报如下的红色提
- 以下均在本人虚拟机上进行1.安装pip3sudo apt install python3-pip2.安装虚拟环境sudo apt insta