网络编程
位置:首页>> 网络编程>> Python编程>> 解决python将xml格式文件转换成txt文件的问题(xml.etree方法)

解决python将xml格式文件转换成txt文件的问题(xml.etree方法)

作者:小k同学!  发布时间:2021-10-21 02:51:13 

标签:python,xml,xml.etree,txt文件

概述

先来介绍一下xml格式的文件,从数据分析的角度去看xml格式的数据集,具有以下的优点开放性(能在任何平台上读取和处理数据,允许通过一些网络协议交换xml数据)、简单性(纯文本,能在不同的系统之间交换数据)、结构和内容分离(不同于HTML,数据的显示和数据本身是分开的)、可扩展性(派生出其他标记语言)

问题描述

那么我们在进行数据分析的时候,如何运用xml里面的数据呢?
我们就需要将这类文件转化成其他类型的文件。
(其实我认为说成提取xml的数据组成新的类型文件比较好一点)
就我个人的观点,处理这方面的问题有点类似于网络爬虫,但不同于爬虫的是不需要考虑IP代理地址的问题(反爬确实是一个很难处理的问题)

问题解决方案

xml格式文件显示内容大致如下:

解决python将xml格式文件转换成txt文件的问题(xml.etree方法)


import os
import sys
import xml.etree.ElementTree as ET
import glob

def xml_to_txt(indir, outdir):
   os.chdir(indir) # indir为xml文件来源的文件夹,outdir为转换的txt文件存储路径
   annotated = os.listdir('.') # 返回包含目录中文件名称的列表
   print(annotated)

for i, file in enumerate(annotated):
       file_save = file.split('.')[0] + '.txt' #split将文件名与后缀名划分开来
       file_txt = outdir + "\\"+file_save
       f_w = open(file_txt, 'w')

in_file = open(file,encoding='UTF-8')
       tree = ET.parse(in_file)
       root = tree.getroot()
       # 以下代码可忽略,你要在xml数据集上找到自己所需要数据对应的标签,想办法将其赋予一个变量,再将其写入新文件里就ok了
       for value in root.iter('xxx'):
           value = value.text
           f_w.write(value)
           f_w.write('\n\n')

还有我要说几句这个方法还是挺好用的,在你处理一个包含很多.xml文件夹的时候,能够直接读取所有xml文件,这样处理起来也比较方便。

来源:https://blog.csdn.net/silent1cat/article/details/120255366

0
投稿

猜你喜欢

  •  Google Chrome 的发布,使我们更加的注重基于 WebKit 核心的浏览器的表现情况,但我们很多时候“不小心”就会出现
  • 本文实例讲述了Go语言实现的树形结构数据比较算法。分享给大家供大家参考。具体实现方法如下:// Two binary trees may b
  • 通常我们在制作上图的时候,会分别给四个div加上不同的css属性,来实现中间间隔。但我们更希望的是不需要对html标签做标识,直接能通过cs
  • 酝酿了将近一个春夏秋冬的腾讯网首页终于亮剑!反响热烈!让我们来分享它成功背后的酸甜苦辣吧。腾讯网首页改版终于开花结果。于2008年3月25日
  • 好多同志对 iframe 是如何控制的,并不是十分了解,基本上还处于一个模糊的认识状态.注意两个事项,ifr 是一个以存在的 iframe
  • 最近接了个项目,其中有需求是要实现摇一摇红包功能,在网上搜了好久,都没有找到源码,没办法,只有自动写了,下面小编把我的劳动成果分享给大家供大
  • 语法格式如下:assert expression等价于:if not expression: raise AssertionErrorass
  • XMLHTTP对象及其方法------------------MSXML中提供了Microsoft.XMLHTTP对象,能够完成从数据包到R
  •         国庆假期快到了,想查查还有几天几小时到假期,这对程序员
  • bottle是一个小型web框架,很小只有一个文件,但功能确很强大,学起来也简单,简单和小巧的同时也有很多不足,某些功能支持还不是很完善,比
  • 这篇文章主要介绍下如何创建并调用函数。print():是打印放入对象的函数 len():是返回对象长度的函数 input():是让用户输入对
  • 不得不承认,傲游在用户体验方面是做得比较好的,所以它的用户群非常大。也正因为如此,它的某些不好的特性也造成了开发人员不可忽略的浏览器兼容问题
  • Python字符串拼接的几种方法整理第一种 通过加号(+)的形式print('第一种方式通过加号形式连接 :' + '
  • 本文实例为大家分享了python3实现基于用户协同过滤的具体代码,供大家参考,具体内容如下废话不多说,直接看代码。#!/usr/bin/py
  • 原来sql还有个stuff的函数,很强悍。 一个列的格式是单引号后面跟着4位的数字,比如'0003,'0120,'4
  • 学习目的: 掌握ADO.NET打开SQL SERVER数据库的方法。 今天做个非常普通的例子,做一个用户登录框。主要是通过这个练习认识一下S
  • 为新项目写的一份规范文档, 分享给大家. 我想前端开发过程中, 无论是团队开发, 还是单兵做站, 有一份开发文档做规范, 对开发工作都是很有
  • 神经网络一般用GPU来跑,我们的神经网络框架一般也都安装的GPU版本,本文就简单记录一下GPU使用的编写。GPU的设置不在model,而是在
  • 前言python号称是编程界的万金油,那么是否可以做个读取电脑网卡wifi并暴力破解的小脚本呢?在这个基础上为了方便体验是不是可以将其打包成
  • 近期,我做了一个娱乐门户的投票系统,也是被刷票搞的焦头烂额,一切可用的方法都用了。但都不是太理想,最终,琢磨出来了下面的方法,我做成了流程图
手机版 网络编程 asp之家 www.aspxhome.com