位置：首页>> 网络编程>> Python编程>> Python 2/3下处理cjk编码的zip文件的方法

Python 2/3下处理cjk编码的zip文件的方法

作者：Robert's Blog　　发布时间：2022-08-05 17:53:40　

标签：python,cjk,编码,zip

今天项目中遇到了中文编码的zip文件，处理了蛮长时间，所以记录下，以免下次踩坑。

Python2下

Python2中读取zip文件，zipfile.ZipInfo的filename类型是str，基本上类似于python3中的bytes，即可以被decode为unicode。

所以，要处理中文，只需要将文件名按照编码decode成unicode就好。

import zipfile
fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
print fileinfo.filename.decode('gb18030')
# 如果要更加详细的区分bytes/str/unicode的语义
print bytes(fileinfo.filename).decode('gb18030')

Python3下

Python3中，Language encoding flag (EFS)如果是1，则按照utf8来处理文件编码，EFS如果为0，则直接按照cp437解码文件名。这是标准直接规定的。

但是，很多软件在制作zip压缩包的时候，直接使用gb18030或者其他非标准编码格式来编码文件名，所以我们还得将文件名反转为bytes，然后再使用对应的编码方式解码：

fpath = '/path/to/zip.zip'
zfile = zipfile.ZipFile(fpath, 'r')
for fileinfo in zfile.filelist:
print(fileinfo.filename.encode('cp437').decode('gb18030'))

方法都有了，那直接根据文件名智能猜测文件编码，然后解压就好。但是由于单个文件名太短，chardet的猜测可能不准，所以我们可以直接将所有的文件名连接起来，猜测编码。

代码请参考 mczip ，兼容python2和python3。

总结

以上所述是小编给大家介绍的Python 2/3下处理cjk编码的zip文件的方法,网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

来源：https://www.robberphex.com/2019/04/1022

0

投稿

猜你喜欢

利用xslt对xml进行缩进格式化处理
下面就是简单的例子，这里提供2中方法：test.htm &
python 协程中的迭代器，生成器原理及应用实例详解
本文实例讲述了python 协程中的迭代器，生成器原理及应用。分享给大家供大家参考，具体如下：1.迭代器理解迭代器：迭代器是访问可迭代对象的
利用Python实现学生信息管理系统的完整实例
项目要求：读完题目，首先我们要确定程序思路我们要全部通过类去实现也就是我们要实现管理员、学生、讲师、课程、教师五个类管理员类class A
精简高效的CSS命名准则和方法
一、“无”的哲学佛家讲究“因果报应”，有果必有应。此段看似与主题没有血缘关系，实际讲的是“因”。我个人比较喜欢老子的道家思想，并喜欢以其思想
JavaScript match() 方法
match()方法用于从字符串中查找指定的值本方法类似于indexOf()和lastindexOf()，不同的是它返回的是指定的值，而不是指
Python爬取商家联系电话以及各种数据的方法
上次学会了爬取图片，这次就想着试试爬取商家的联系电话，当然，这里纯属个人技术学习，爬取过后及时删除，不得用于其它违法用途，一切后果自负。首先
Python实现子类调用父类的方法
本文实例讲述了Python实现子类调用父类的方法。分享给大家供大家参考。具体实现方法如下：python和其他面向对象语言类似，每个类可以拥有
Django发送html邮件的方法
本文实例讲述了Django发送html邮件的方法。分享给大家供大家参考。具体如下：在Django中，发送邮件非常的方便，一直没有时间，今天来
Golang之模糊测试工具的使用
背景我们经常调侃程序员每天都在写bug，这确实是事实，没有测出bug不代表程序就真的不存在问题。传统的代码review、静态分析、人工测试和
django初始化数据库的实例
最近项目需要，需要在表创建好之后，初始化一些数据。Django初始化数据的方法有很多，但都需要额外的手动操作，不智能。看网上有一种方法用po
Python实现配置文件备份的方法
本文实例讲述了Python实现配置文件备份的方法。分享给大家供大家参考。具体如下：这里平台为Linux：#!/usr/bin/python#
asp 随机字符串函数
'************************************* 'asp计算随机数&nb
使用Python下的XSLT API进行web开发的简单教程
Kafka 样式的 soap 端点Christopher Dix 所开发的“Kafka — XSL SOAP 工具箱”（请参阅参考资料）是
PHP自动生成缩略图函数的源码示例
一个简单但功能比较完善的自动生成缩略图的函数，可以按需要对图片进行缩放、裁切、锁定宽或高、使用空白填充以下为源码，比较简单，相信很容易看明白
python 异常的传递性及主动抛出学习
异常的传递性在 Python 中，异常的传递性指的是，当一个异常没有被处理时，它会沿着调用栈向上抛出，直到被处理或者导致程序崩溃。具体来说，
解析PHP中VC6 X86和VC9 X86的区别及 Non Thread Safe的意思
PHP现在推出5.3.0版本了，不过下载的时候有几个不同版本选择。那就是VC6 X86和VC9 X86。首先我来解答:VC6是什么？VC6就
推荐:怎么用javascript进行拖拽
怎么用javascript进行拖拽本文译自：http://www.webreference.com/programming/javascri
详解Python字符串切片
在python中，我们定义好一个字符串，如下所示。在python中定义个字符串然后把它赋值给一个变量。我们可以通过下标访问单个的字符，跟所有
详解Python中的正则表达式的用法
如果直接在命令行中利用input和raw_input读入一个文件来处理，并且想要采用直接将文件拖入命令行来处理的方式，input方法可以直接
python替换字符串中的子串图文步骤
修改字符串本身是不可能的，因为字符串是不可变类型，只能是通过某些方法来产生它的副本。再把副本赋值给原字符串，达到类似替换的作用。这里介绍几种

Python 去除字符串中指定字符串

Python中生成Epoch的方法

编写自定义的Django模板加载器的简单示例

python实现在图片上画特定大小角度矩形框

如何用Python做一个微信机器人自动拉群

Python版的文曲星猜数字游戏代码

Python操作json数据的一个简单例子

Python使用迭代器捕获Generator返回值的方法

python快排算法详解

Python把对应格式的csv文件转换成字典类型存储脚本的方法

Android天气预报app改进版

Excel表格中隔行填充色的方法

win10家庭版怎么升级专业版？win10家庭版升级到专业版的方法图解

使用注册表删除IE浏览器中右键菜单项教程

Win7旗舰版如何快速打开电脑隐藏文件或文件夹？

Win11用户登陆存在问题的解决方法

excel now函数的使用教程

win10系统升级提示错误代码0x80070006-0x2000c该怎么解决

excel表格数字批量转成带“绿三角”的文本

Windows 10新版17711发布：Edge变阅读利器、加入HDR显示调节

手机版 网络编程 asp之家 www.aspxhome.com