Python 文件数据读写的具体实现
作者:大梦三千秋 发布时间:2023-07-08 12:15:06
文件数据读写
读写文件,本质上是请求操作系统打开一个文件对象,然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件),或者把数据写入这个文件对象(写文件)。
文件读取
使用 Python 内置 open() 函数,以 rt 的模式读取文件,如下示例:
>>> f = open('some.txt', 'rt')
这行代码就表示打开一个文件,若是文件不存在,会抛出 IOError 的异常,并给出详细的信息提示:
>>> f = open('undefined.txt', 'rt')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
FileNotFoundError: [Errno 2] No such file or directory: 'undefined.txt'
当成功打开文件时,可使用 read() 函数读取文件的内容:
>>> f.read()
'Hello world!'
当数据读取完毕后,需要调用 close() 关闭文件。因为文件对象会占用资源,使用完毕后需要及时关闭释放资源。
>>> f.close()
还有一种方法就是使用 with 语句,给被使用的文件创建一个上下文环境,这样文件对象就能够自动关闭。
>>> with open('some.txt', 'rt') as f:
... data = f.read()
...
调用 read() 时一次性读取全部内容,若是文件内容过大,可以使用 read(size) 固定大小循环读取,每次最多读取 size 字节的内容。readline() 函数,每次读取一行内容,readlines() 读取所有内容,但是按行返回 list。三者的使用,可根据实际的需求进行选择。
二进制文件
读取二进制的文件,需要使用 rb 的模式打开:
>>> f = open('image.jpg', 'rb')
>>> f.read()
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00...'
从文件中读取数据,需要注意编码的问题。当编码错误时,会抛出 UnicodeDecodeError 异常。比如:
>>> f = open('some.txt', 'rt', encoding='ascii')
>>> f.read()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python3.6/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xcc in position 2: ordinal not in range(128)
这种情况下,通常为读取文本指定的编码不正确,需要确认文件编码是否正确。如果编码错误还是存在的话,可以给 open() 函数传递一个可选的 errors 参数来处理这些错误。比如:
>>> f = open('some.txt', 'rt', encoding='ascii', errors='replace')
>>> f.read()
'Un��ic��o��de��'
>>> f = open('some.txt', 'rt', encoding='ascii', errors='ignore')
>>> f.read()
'Unicode'
使用参数 errors 能够处理编码错误的问题,但是过程会觉得非常糟糕。这里提倡的是确保使用的是正确的编码。模棱两可的时候,使用默认的设置(通常是 UTF-8)。
压缩文件
读取 gzip 和 bz2 格式的压缩文件时,可以使用 gzip 和 bz2 模块。两个模块都为 open() 提供了另外的实现来解决读取 gzip 和 bz2 两个格式的压缩文件的问题。例如读取压缩文件,示例如下:
>>> import gzip
>>> with gzip.open('some.gz', 'rt') as f:
... text=f.read()
>>> import bz2
>>> with bz2.open('some.bz2', 'rt') as f:
... text=f.read()
文件写入
文件写入,同样需要调用 open() 参数,但是指定的模式为 wt 或者 wb,用以表示写文本文件或是二进制文件:
>>> f = open('some.txt', 'wt')
>>> f.write('Hello, world!')
13
>>> f.close()
数据写入完毕,同样需要调用 close() 关闭文件对象。也可以 with 语句创建上下文,用以正常关闭文件对象。
类似的,写入压缩数据时,导入 gzip 或者 bz2 模块:
>>> import gzip
>>> with gzip.open('some.gz', 'wt') as f:
... f.write(text)
>>> import bz2
>>> with bz2.open('some.bz2', 'wt') as f:
... f.write(text)
写入压缩数据时,可选参数 compresslevel 可以指定一个压缩等级。例如:
>>> with gzip.open('some.gz', 'wt', compresslevel=6) as f:
... f.write(text)
compresslevel 参数默认值为 9,表示最高的压缩等级。等级越低性能越好,但是压缩程度也就越低。
使用 w 模式的 open() 函数,若打开的文件在写入前有数据内容,则会被清除覆盖。如果是要在已经存在的文件中添加内容的话,使用模式为 at 的 open() 函数。
涉及读写文件模式的定义及含义,内容如下:
模式 | 含义 |
---|---|
'r' | 读取数据(默认) |
'w' | 写入数据 |
'x' | 文件存在抛出异常,不存在则创建 |
'a' | 追加写入数据 |
'b' | 二进制模式 |
't' | 文本模式(默认) |
'+' | 更新文件(读写) |
具体更详细的内容可以参考 Python 官方文档。
参考资料
来源
David M. Beazley;Brian K. Jones.Python Cookbook, 3rd Edtioni.O'Reilly Media.2013.
Luciano Ramalho.Fluent Python.O'Reilly Media.2015.
“2. Built-in Functions”.docs.python.org.Retrieved 20 January 2020.
"gzip — Support for gzip files".docs.python.org.Retrieved 22 January 2020.
"bz2 — Support for bzip2 compression".docs.python.org.Retrieved 22 January 2020.
廖雪峰.“Python 教程”.liaoxuefeng.com.[2020-01-18].
来源:https://segmentfault.com/a/1190000021642805


猜你喜欢
- 与其他主流语言如 Javascript、Java 和 Python 相比,Golang 的错误处理方式可能和这些你熟悉的语言有所不同。所以才
- 1998年,W3C发布HTML 4.0 Specification,里面清清楚楚的写了每个标签的用法和语义。搜索引擎的算法参考了W3C的语义
- 执行环境会负责管理代码执行过程中使用的内存,编写JavaScript程序时,所需内存的分配以及无用内存的回收完全实现自动管理。原理:找出那些
- 引言什么是数据结构?数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成。简单来说,数据结构就是设计数据
- 1.基本概念定义含义并发:concurrency,同一时刻只能有一条指令执行,但是多个线程的对应的指令被快速轮换地执行并行parallel,
- 特点在 dayjs 之前,还有一个时间处理工具 moment.js,但是它的体积比较大,即使经过压缩压缩之后依然有 80kb 左右。而前者
- channel单纯地将函数并发执行是没有意义的。函数与函数间需要交换数据才能体现并发执行函数的意义。虽然可以使用共享内存进行数据交换,但是共
- 一 安装oracle数据库成功之后,会显示相关的数据库信息: 全局数据库名:oracle 系统标识符(SID):oracle 服务器参数文件
- 获取需要使用到正则的两个对象:使用的是用正则对象Pattern 和匹配器Matcher。用法:范例: Pattern p = Pattern
- 在MySQL中,A LEFT JOIN B join_condition执行过程如下:· 根据表A和A依赖的所有表设置表B。· 根据LEFT
- 微信小程序组件设计规范组件化开发的思想贯穿着我开发设计过程的始终。在过去很长一段时间里,我都受益于这种思想。组件可复用 - 减少了重复代码量
- 这篇文章主要介绍了python处理RSTP视频流过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的
- 我就废话不多说了,直接上代码吧!# -*- coding: utf-8 -*-"""Created on Th
- 本文中,我们将进行大量的编程——但在这之前,我们先介绍一下我们今天要解决的实例问题。1) 预测房子价格房价大概是我们中国每一个普通老百姓比较
- 目录简介js 中的迭代器是什么样子的迭代协议可迭代协议迭代器协议迭代过程迭代总结自定义迭代传统写法生成器函数写法简介迭代器是一种设计模式,可
- 这篇文章主要介绍了Python检查 云备份进程是否正常运行代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- Protocol Buffers (类似XML的一种数据描述语言)最新版本2.3里,protoc—py_out命令只生成原生的P
- What do the ->, => and :: symbols mean?The -> is the "in
- 最近出现一个很奇怪的MySQL问题,使用不同select语句查询全部数据集居然得到不同的记录数。select * 得到4条记录,select
- 一、Tesseract-OCR 是什么An OCR Engine that was developed at HP Labs between