Python 中对 XML 文件的编码转换问题
作者:Lilixxs 发布时间:2022-08-19 12:46:53
1. 在 Python 中 XML 文件的编码问题
1.Python 使用的xml.etree.ElementTree
库只支持解析和生成标准的UTF-8格式的编码
2.常见GBK
或GB2312
等中文编码的 XML 文件,用以在老旧系统中保证 XML 对中文字符的记录能力
3.XML 文件开头有标识头,标识头指定了程序处理 XML 时应该使用的编码
4.要修改编码,不仅要修改文件整体的编码,还要将标识头中 encoding 部分的值修改
2. 处理 Python XML 文件的思路
1.读取&解码:
使用二进制模式读取 XML 文件,将文件变为二进制流
将二进制流使用
.encode()
方法,使用原文件的编码格式进行解析为字符串
2.处理标识头:使用.replace()
方法,替换字符串中的encoding="xxx"
部分
3.编码&保存:将字符串使用新的编码格式进行保存
3. 实际过程中遇到的问题
GB2312 <–> UTF:无问题,可直接按照上面的逻辑处理
GBK <–> UTF8
GBK --> UTF8:无问题,可直接按照上面的逻辑处理
UTF8 --> GBK:.encode()会报错,要加上error="ignore"参数,忽略无法转换的字符
这里的原理是:GBK 编码兼容 UTF-8 编码,因此无法转换的内容使用 GBK 直接也能显示
GBK <–> GB2312:无问题
4. 最后使用的代码
# filepath -- 原文件路径
# savefilepath -- 转换后文件存储路径(默认 = 原文件路径)
# oldencoding -- 原文件的编码格式
# newencoding -- 转换后文件的编码格式
def convert_xml_encoding(filepath, savefilepath=filepath, oldencoding, newencoding):
# Read the XML file
with open(filepath, 'rb') as file:
content = file.read()
# Decode the content from old encoding
# 出现错误时忽略 errors='ignore'
decoded_content = content.decode(oldencoding, errors='ignore')
# decoded_content = content.decode('GBK')
# Update the encoding in the XML header
updated_content = decoded_content.replace('encoding="{}"'.format(oldencoding),
'encoding="{}"'.format(newencoding))
# Encode the content to new encoding
# 出现错误时忽略 errors='ignore'
encoded_content = updated_content.encode(newencoding,errors='ignore')
# Write the updated content to the file
with open(savefilepath, 'wb') as file:
file.write(encoded_content)
# Result output
print(f"XML file '{os.path.basename(filepath)}'({oldencoding}) --> '{os.path.basename(savefilepath)}'({newencoding})")
# ---------------------- 使用示例 ---------------------
# GBK --> utf-8
convert_xml_encoding(filepath, savefilepath1, 'GBK', 'utf-8')
# utf-8 --> gb2312
convert_xml_encoding(filepath, savefilepath1, 'utf-8', 'gb2312')
# GBK --> gb2312
convert_xml_encoding(filepath, savefilepath1, 'GBK', 'gb2312')
注意事项:
由于这里需要直接替换标识头,要求编码名称一定得完全匹配,否则替换会失败
如:GBK 不能写成 gbk,utf-8 不能写成 UTF8此代码仅在以上 GBK、GB2312、UTF-8 & 常用中英文基础上测试,其他的编码格式不保证一定能转换成功
来源:https://blog.csdn.net/weixin_44112083/article/details/129646255


猜你喜欢
- 我们知道Vscode是一款强大的编辑器,我们可以通过商城里面的插件扩展来写C/C++/python/java等。同样Vscode支持SQL语
- 百度的资料,保存下来:在写按时间段查询的sql语句的时候 一般我们会这么写查询条件:where date>='2010-01-
- Windows下MySQL的安装和删除,供大家参考,具体内容如下安装Mysql1 下载mysql下载地址1;下载地址22 安装教程2.1配置
- (一)单一独立的参数如果命令行输入的参数都是各自单一独立的,直接用个循环把所有参数逐一读出来就行了。sys模块里面直接用args = sys
- app01/models.py:from django.db import modelsclass UserInfo(models.Mode
- 这些常量在 PHP 的内核中定义。它包含 PHP、Zend 引擎和 SAPI 模
- 最近人工智能等多门课需要复现论文,近两年的论文很多都是基于Pytorch环境做的实验,所以,这里总结一下Pytorch的安装教程,做好最快、
- 本文实例讲述了javascript获取select值的方法。分享给大家供大家参考。具体分析如下:1. 获取显示的汉字document.get
- ASP 能快速执行你的 * 页,但你还可以通过紧缩代码和数据库连接以使它们执行更快。这是一篇关于怎样精简代码和Asp 特征以获得最快执行速度
- 今天开始学习 YUI,加强一下对 JavaScript 的理解。1. 命名空间 YAHOO
- 用数据库的时候就会遇到有多个用户,分配用户权限的情况,有些用户只读,有些用户可以读写,有些用户只能操作一个或者多个数据库,如何给mysql的
- 目录前言第一步:查看所有 SSH-Key第二步:生成一个 ssh-key,用于配置公司的 GitLab第三步:Github 生成一个 SSH
- 研究好多天了,也试过好多办法了,总结出目前发现最好的方法:先说一下基本的东西:<%@ codepage=65001%>
- 某个线程要共享数据时,先将其锁定,此时资源的状态为“锁定”,其他线程不能更改;直到该线程释放资源,将资源的状态变成“非锁定”,其他的线程才能
- 在使用ASP来进行后端的数据合法性校验的时候,有些人为满足不同环境下面的数据校验,编写了很多的函数来实现,比如,我们想要校验用户输入的URL
- 概论在讨论ECMAScript闭包之前,先来介绍下函数式编程(与ECMA-262-3 标准无关)中一些基本定义。 然而,为了更好的解释这些定
- <input type=button value=刷新 onclick="window.location.reload()&
- 一、Oracle11g的安装过程(Windows版本)很简单,步骤为: 1. 首先从Oracl
- 因为旧电脑不幸挂了,所以要在新电脑上面重新安装Python。一看官网发现已经更新到3.8.5+了,乖乖,真是迭代快啊。虽然之前安装过一次,不
- 【OpenCV】⚠️高手勿入! 半小时学会基本操作 ⚠️ 圆圈检测概述OpenCV 是一个跨平台的计算机视觉库, 支持多语言, 功能强大.