如何使用python批量修改文本文件编码格式
作者:oceanstonetree 发布时间:2021-02-15 14:01:30
标签:python,批量修改,文件编码
使用python批量修改文本文件编码格式
把文本文件的编码格式进行批量幻化,比如ascii, gb2312, utf8等,相互转化,字符集的大小来看,utf8>gb2312>ascii,因此最好把gb2312转为utf8,否则容易出现乱码。
gb2312和utf-8的主要区别:
关于字库规模: UTF-8 > gb2312(utf8字全而gb2312只有汉字)
关于保存大小: UTF-8> gb2312 (utf8更臃肿、加载更慢,gb2312更小巧,加载更快)
关于适用范围:gb2312主要在中国大陆地区使用,是一个本地化的字符集,UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。
import sys
import chardet
import codecs
def get_encoding_type(fileName):
'''print the encoding format of a txt file '''
with open(fileName, 'rb') as f:
data = f.read()
encoding_type = chardet.detect(data)
#print(encoding_type)
return encoding_type
# such as {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
def convert_encoding_type(filename_in, filename_out, encode_in="gb2312", encode_out="utf-8"):
'''convert encoding format of txt file '''
#filename_in = 'flash.c'
#filename_out = 'flash_gb2312.c'
#encode_in = 'utf-8' # 输入文件的编码类型
#encode_out = 'gb2312'# 输出文件的编码类型
with codecs.open(filename=filename_in, mode='r', encoding=encode_in) as fi:
data = fi.read()
with open(filename_out, mode='w', encoding=encode_out) as fo:
fo.write(data)
fo.close()
# with open(filename_out, 'rb') as f:
# data = f.read()
# print(chardet.detect(data))
if __name__=="__main__":
# fileName = argv[1]
# get_encoding_type(fileName)
# convert_encoding_type(fileName, fileName)
filename_of_files = sys.argv[1] #the file contain full file path at each line
with open(filename_of_files, 'rb') as f:
lines = f.readlines()
for line in lines:
fileName = line[:-1]
encoding_type = get_encoding_type(fileName)
if encoding_type['encoding']=='GB2312':
print(encoding_type)
convert_encoding_type(fileName, fileName)
print(fileName)
补充:python实现文件批量转为utf-8格式
python实现文件批量转为utf-8格式
xml_path = './'
with open(xml_path , 'rb+') as f:
content = f.read()
codeType = detect(content)['encoding']
content = content.decode(codeType, "ignore").encode("utf8")
fp.seek(0)
fp.write(content)
来源:https://blog.csdn.net/yanfeng1022/article/details/128259342


猜你喜欢
- 前言Stream 是一个基于 Go 1.18+ 泛型的流式处理库, 它支持并行处理流中的数据. 并行流会将元素平均划分多个的分区, 并创建相
- 相信有些小伙伴,在没接触py之前,肯定都是有所准备的,想学语言由来已久,拿小编来说,一直趁着空挡就开始找课程学习,用记下学习历程,还会向一些
- 前言快要过年了,现在是工作的事情也不想干,学习也完全学不进去,关于xlsx的操作原本昨天已经写好了,不过悲催的是,忘记发布了直接关浏览器关闭
- 本是一个自己知道的问题,还是差点踩坑(差点忘了,还好上线前整理上线点时想起来了),特此记录下来为什么要更新自增id我是因为历史业务上的坑,导
- Nodejs 连接 mysql时报Error: Cannot enqueue Query after fatal error错误的处理办法一
- 最近公司准备扩张海外业务,所以要给 Django 系统添加 国际化与本土化 支持。国际化一般简称 i18n ,代表 Internationa
- 最近对微格式进行了一些学习,在学习过程中收获不少。在此分享下,欢迎交流!微型格式的优点:1,语义化的HTML和CSS类名称来标记共同内容。2
- MySql总是定时弹出一个MySQLInstallerConsole.exe的窗口,如何解决呐?这貌似是一条安装命令,Installing
- <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN&
- 这篇文章主要介绍了Javascript Worker子线程代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- 如何用ASP输出HTML文件?<!--#include file="top.inc"--><
- 索引和切片相当于是对数组中内容的读(read)或者查询(inquiry)。是我们获取有用信息(demanded infomation)的重要
- PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍下p
- 如何在线更改密码?<%id = Request("id")newpassword =
- 无法导入本地安装好的第三方库一、安装第三方库1、 Anaconda安装(1)、打开“cmd”窗口(快
- 目录技术背景加速场景基于Numba的GPU加速总结概要技术背景GPU加速是现代工业各种场景中非常常用的一种技术,这得益于GPU计算的高度并行
- 例如:[‘a', ‘b', ‘c'] 输出 [‘a', ‘b', ‘c'] [‘a'
- <HTML> <BODY> <
- 大家都知道Js有同源策略,就是主域名不同嵌套的iframe不允许Js通信的。比如我有一个网站,网站中要嵌入其网站的页面。那么我可
- Anaconda安装:anaconda官方下载地址https://www.anaconda.com/products/individual注