如何使用python批量修改文本文件编码格式
作者:oceanstonetree 发布时间:2021-02-15 14:01:30
标签:python,批量修改,文件编码
使用python批量修改文本文件编码格式
把文本文件的编码格式进行批量幻化,比如ascii, gb2312, utf8等,相互转化,字符集的大小来看,utf8>gb2312>ascii,因此最好把gb2312转为utf8,否则容易出现乱码。
gb2312和utf-8的主要区别:
关于字库规模: UTF-8 > gb2312(utf8字全而gb2312只有汉字)
关于保存大小: UTF-8> gb2312 (utf8更臃肿、加载更慢,gb2312更小巧,加载更快)
关于适用范围:gb2312主要在中国大陆地区使用,是一个本地化的字符集,UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。
import sys
import chardet
import codecs
def get_encoding_type(fileName):
'''print the encoding format of a txt file '''
with open(fileName, 'rb') as f:
data = f.read()
encoding_type = chardet.detect(data)
#print(encoding_type)
return encoding_type
# such as {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
def convert_encoding_type(filename_in, filename_out, encode_in="gb2312", encode_out="utf-8"):
'''convert encoding format of txt file '''
#filename_in = 'flash.c'
#filename_out = 'flash_gb2312.c'
#encode_in = 'utf-8' # 输入文件的编码类型
#encode_out = 'gb2312'# 输出文件的编码类型
with codecs.open(filename=filename_in, mode='r', encoding=encode_in) as fi:
data = fi.read()
with open(filename_out, mode='w', encoding=encode_out) as fo:
fo.write(data)
fo.close()
# with open(filename_out, 'rb') as f:
# data = f.read()
# print(chardet.detect(data))
if __name__=="__main__":
# fileName = argv[1]
# get_encoding_type(fileName)
# convert_encoding_type(fileName, fileName)
filename_of_files = sys.argv[1] #the file contain full file path at each line
with open(filename_of_files, 'rb') as f:
lines = f.readlines()
for line in lines:
fileName = line[:-1]
encoding_type = get_encoding_type(fileName)
if encoding_type['encoding']=='GB2312':
print(encoding_type)
convert_encoding_type(fileName, fileName)
print(fileName)
补充:python实现文件批量转为utf-8格式
python实现文件批量转为utf-8格式
xml_path = './'
with open(xml_path , 'rb+') as f:
content = f.read()
codeType = detect(content)['encoding']
content = content.decode(codeType, "ignore").encode("utf8")
fp.seek(0)
fp.write(content)
来源:https://blog.csdn.net/yanfeng1022/article/details/128259342
0
投稿
猜你喜欢
- 1、选择结构通过判断条件是否成立来决定分支的执行。2、选择结构形式:单分支、双分支、多分支。3、多分支结构,几个分支之间有逻辑关系,不能随意
- 如果用户查询时,使用Order BY排序语句指定按员工编号来排序,那么排序后产生的所有记录就是临时数据。对于这些临时数据,Oracle数据库
- 要想更好的理解 css, 尤其是 IE 下对 css 的渲染,haslayout 是一个非常有必要彻底弄清除的概念。大多IE下的显示错误,就
- fileinput模块可以遍历文本文件的所有行.它的工作方式和readlines很类似,不同点在于,它不是将全部的行读到列表中而是创建了一个
- 可及,通俗的说是“可以达到”,加上主语和宾语,在“交互设计”这个大的语境下,含义应该是“用户可以达到自己的操作目标”,这不是和“有效性—用户
- 1. h5py简单介绍h5py文件是存放两类对象的容器,数据集(dataset)和组(group),dataset类似数组类的数据集合,和n
- 如何在刷新链接之前验证文件是否存在?如何在每次刷新链接之前,验证链接文件是否确实存在?特别是对于数据库中的文件,我们必须在处理它之前确认一下
- 1. logging日志的介绍在现实生活中,记录日志非常重要,比如:银行转账时会有转账记录;飞机飞行过程中,会有个黑盒子(飞行数据记录器)记
- js汉字简繁转换源代码:<html> <head> <title>汉字简繁转换工具_asp之家</
- 大概在2004年初的时候,我第一次买了一本很厚的书,名字或许叫《Dreamweaver MX从入门到精通》,很认真看着书并实践操作大约三分之
- 前言在《设计模式》一书中工厂模式提到了:工厂方法模式(Factory Method)抽象工厂模式 (Abstract Factory)但是在
- asp如何获知页面上的图象的实际尺寸大小?见下面的两个asp文件:<!--#include virtual="/i
- 由于网络带宽以及某些WAP服务器DECK传输的限制,所以DECK越小越好,最好不要超过1.2K。如果你的需求很复杂,最好分成几个DECK来完
- 前言当使用pandas读取csv文件时,如果元素为空,则将其视为缺失值NaN(Not a Number, 非数字)。使用dropna()方法
- 如下所示://定义编码 header( 'Content-Type:text/html;charset=utf-8
- 我有大量的重要数据要从SQL Server导出到Access或Excel文件中去,手工做太麻烦,还有其它的好办法吗?有,我们在 SQL Se
- 后台实时监控服务器的CUP与内存占用率的场景很常见,虽然没做过,但是着手写代码之前我真没想到会花2个多小时才最终实现。网上虽然搜 PHP C
- 1. 引言今天来给小伙伴推荐两款实用的便于调试Python代码的工具,可以方便展示我们调试代码的中间状态,提升大家的编码效率。2. 动机在日
- 文中涉及的示例代码,已同步更新到HelloGitHub-Team 仓库在上一篇教程中,我们通过手工方式将代码部署到了服务器。整个过程涉及到十
- 本文实例讲述了Python递归及尾递归优化操作。分享给大家供大家参考,具体如下:1、递归介绍递归简而言之就是自己调用自己。使用递归解决问题的