解决python 使用openpyxl读写大文件的坑
作者:valark 发布时间:2021-06-20 17:03:24
由于需要处理xlsx类型的文件,我使用了openpyxl来处理,然而文件比较大,大约有60多MB。读文件的时候虽然慢了一点,但还是能够读出来,但是当我想写入时却报错了。
显示设备没有多余的空间,百度了一下,发现有不少关于openpyxl读写大文件的问题。总结来看,解决方案主要有以下两种,当然,我两种都用上了。
手动释放内存
del wb, ws
gc.collect()
这一招还算有用,在读完文件后可以看到内存占用明显下降了一点。
安装lxml
使用命令·pip install lxml安装依赖
这个依赖并非必须安装的依赖,但是可以使openpyxl流式处理数据。
总之使用了以上两种方案后,终于可以成功处理数据了。
补充:openpyxl读取大文件的若干问题
需要编写一个EXCEL文件对比工具
excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.
使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格编程中遇到若干问题
1、读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值
如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改
D:\Python34\Lib\site-packages\openpyxl\reader\style.py
164: format_code = builtin_formats.get(numFmtId,'General')
2、读取时内存占用过大
基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535
通过研究,代码进行了如下修改
1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.
2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用
3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).
4:虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.
通过代码修改,现在完成文件对比所用的内存通常在2G以内
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
来源:https://blog.csdn.net/valark/article/details/113207883


猜你喜欢
- 1 基本用法把序列乘以一个整数,就会产生一个新序列。这个新序列是原始序列复制了整数份,然后再拼接起来的结果。l=[1,2,3]l2=l *
- 浏览器的简单操作# 导入webdriver模块# 创建driver对象,指定Chrome浏览器driver = webdrive
- 为了顺利的开发一个多语言的国际化J2EE程序,需要修改数据库字符集,我的做法如下:安装 MySq时选择字符集为UTF-8修改MySql安装目
- 在编程时你一定碰到过时间触发的事件,在VB中有timer控件,而asp中没有,假如你要不停地查询数据库来等待一个返回结果的话,我想你一定知道
- 很多时候我们在操作过页面时候,特别是增删改操作之后,数据会有所改变,这个时候我们希望返回的界面中的数据要和数据库中的数据进行同步,就需要刷新
- 1. 图像缩放1.2. 使用命令import cv2# 缩放def resize(img, k, inter):
- 简述在大多数此类教程中都会不遗余力的介绍如何使用数据库。今天我们对数据库暂且不表,而是来关注另一个在web应用中很重要的特性:如
- 上一篇:微软建议的ASP性能优化28条守则(8)技巧 28:阅读资源链接下面是一些与性能有关的出色的资源链接。如果您想了解有关信息,请阅读
- 首先我们的目标是这样子的:那么他有什么成分呢?有圣诞树的本体、大小蝴蝶结、星星、圣诞帽和袜子。首先我们来画圣诞树的本体。1. 圣诞树的本体圣
- 在上一篇文章中,我们介绍了如何使用源码对TensorBoard进行编译教程,没有定制需求的可以直接使用pip进行安装。TensorBoard
- with 用法理解Overviewwith 与with之后的object一起,起到了抛出异常和单独生成一个空间让代码在空间里运行的效果。实验
- Flask框架是Python开发的一个基于Werkzeug和Jinja 2的web开发微框架,它的优势就是极其简洁, 但又非常灵活,而且容易
- 前言:这章我们使用小程序的 scroll-view组件 实现横向滚动和竖向滚动。GitHub: https://github.com/Ewa
- 这篇文章主要介绍了python如何实现不用装饰器实现登陆器小程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值
- Python中有很多运算符,今天我们就来讲讲is和==两种运算符在应用上的本质区别是什么。在讲is和==这两种运算符区别之前,首先要知道Py
- 尽管某些书籍上总是说避免使用全局变量,但是在实际的需求不断变化中,往往定义一个全局变量是最可靠的方法,但是又必须要避免变量名覆盖。Pytho
- 前些天用python处理xml的转换的一个小程序,用来把xml,xsl转换成html。用的libxml2,所以还要先安装了libxml2模块
- 前言当我们需要对列表(list)、元组(tuple)、字典(dictionary)和集合(set)的元素进行遍历时,其实Python内部都是
- 业务需求 识别验证码图片中的数字信息,用pyt
- 如下所示:def softmax(logits, axis=None, name=None, dim=None): ""