位置：首页>> 网络编程>> Python编程>> 通过Pandas读取大文件的实例

通过Pandas读取大文件的实例

作者：痞靥　　发布时间：2023-12-25 21:18:31　

标签：Pandas,读取,文件

当数据文件过大时，由于计算机内存有限，需要对大文件进行分块读取：

import pandas as pd
f = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')
reader = pd.read_csv(f, sep=',', iterator=True)
loop = True
chunkSize = 100000
chunks = []
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)
print(df)

read_csv()函数的iterator参数等于True时，表示返回一个TextParser以便逐块读取文件；

chunkSize表示文件块的大小，用于迭代；

TextParser类的get_chunk方法用于读取任意大小的文件块；

StopIteration的异常表示在循环对象穷尽所有元素时报错；

concat()函数用于将数据做轴向连接：

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, Verify_integrity=False)

常用参数：

objs：Series,DataFrame或者是Panel构成的序列list;

axis：需要合并连接的轴，0是行，1是列；

join：连接的参数，inner或outer；

ignore=True表示重建索引。

来源：https://blog.csdn.net/u012347642/article/details/78555132

0

投稿

猜你喜欢

php提示Failed to write session data错误的解决方法
本文较为详细的分析了php提示Failed to write session data错误的解决方法。分享给大家供大家参考。具体方法如下：一
PyTorch搭建LSTM实现时间序列负荷预测
I. 前言在上一篇文章深入理解PyTorch中LSTM的输入和输出（从input输入到Linear输出）中，我详细地解释了如何利用PyTor
20分钟MySQL基础入门
开始使用MySQL 为关系型数据库(Relational Database Management System)，一个关系型数据库由一个或数
python引用DLL文件的方法
本文实例讲述了python引用DLL文件的方法。分享给大家供大家参考。具体分析如下：在python中调用dll文件中的接口比较简单，如我们有
javascript读取Json数据并分页显示，支持键盘和滚轮翻页
闲着没事看到国外一个酷站欣赏的网站不错，不过他是用FLASH做的，于是想着用JS也写一个看看，技术有限写的不是很完美，还有一些小的BUG不知
Python关于抽奖系统的思考与设计思路
一、文章主题在看到相关的抽奖诈骗报道，有的人却不明白是怎么回事。为了预防被抽奖诈骗，因此，我们通过一些简单的例子来说一说，抽奖更深层的逻辑，
Linux(Ubuntu)下mysql5.7.17安装配置方法图文教程
前言前面安装过mysql5.6，时隔三个月，开发那边反馈需要在MySQL中处理JSON类型的数据，查看文档，JSON是在5.7支持的新特性。
Python matplotlib实时画图案例
实时画图import matplotlib.pyplot as pltax = [] # 定义一个 x 轴的空列表用来接收动态
Oracle Index 的三个问题
索引( Index )是常见的数据库对象，它的设置好坏、使用是否得当，极大地影响数据库应用程序和Database 的性能。虽然有许多资料讲索
Python装饰器原理与基本用法分析
本文实例讲述了Python装饰器原理与基本用法。分享给大家供大家参考，具体如下：装饰器：意义：在不能改变原函数的源代码，和在不改变整个项目中
当恢复sqlserver bak文件时，原始的用户无法删除的解决方法
你无法创建一个相同的用户并mapping这个用户到数据库，并且你无法删除数据库的用户：DemoUser. 请运行以下脚本，之后你就可以删
go GCM gin中间件的加密解密文件流处理
aes的gcm模式的加密和解密要给已有的系统启用加密解密，目前推荐的是aes的gcm模式的加密和解密，在微服务如果向前有公共方法处理读取数
通俗易懂详解Python基础五种下划线作用
1、后单下划线例如: data_其实这种就是为了防止跟系统关键字重名了，比如 python 里是不是有个关键字 class但是我也想用 cl
python中的selenium安装的步骤（浏览器自动化测试框架）
一、前言我们今天要安装的selenium 就是浏览器自动化测试框架，是一个用于Web应用程序的测试工具，就是模拟用户操作。支持的浏览器包括C
MySQL实战记录之如何快速定位慢SQL
开启慢查询日志在项目中我们会经常遇到慢查询，当我们遇到慢查询的时候一般都要开启慢查询日志，并且分析慢查询日志，找到慢sql，然后用expla
浅谈一下python线程池简单应用
一、线程池简介传统多线程方案会使用“即时创建，即时销毁”的策略。尽管与创建进程相比，创建线程的时间已
php pdo oracle中文乱码的快速解决方法
在/etc/profile.d/简历oracle.sh内容如下在NLS_LANG设置编码ORACLE_HOME=/usr/lib/oracl
Hadoop分布式集群的搭建的方法步骤
1 安装说明1.1 用到的软件软件版本下载地址linuxUbuntu Server 18.04.2 LTShttps://ubuntu.co
python自定义线程池控制线程数量的示例
1.自定义线程池import threadingimport Queueimport timequeue = Queue.Queue()de
MySQL数据库优化详解
mysql表复制 &n

Python ArcPy实现批量计算多时相遥感影像的各项元平均值

Python机器学习之AdaBoost算法

对json字符串与python字符串的不同之处详解

Python 使用 docopt 解析json参数文件过程讲解

解决新django中的path不能使用正则表达式的问题

Python+pandas编写命令行脚本操作excel的tips详情

python 删除指定时间间隔之前的文件实例

python实现学生信息管理系统源码

Python Json读写操作之JsonPath用法详解

Python编程之基于概率论的分类方法：朴素贝叶斯

word 选择表格的方法

Primo iPhone Data Recovery 如何使用或不使用备份从iPhone检索已删除的联系人？

如何在Excel中输入欧元符号“€”

苹果手机桌面布局怎么设置

明日之后雪山密道在什么地方？雪山密道位置介绍

夕阳热气球飞机有哪些功能？飞机功能及用法介绍

如何给PPT幻灯片中的组织结构图使用预设图样

崩坏3崩坏弹头活动有哪些奖励？崩坏弹头活动奖励及玩法介绍

Python 基于Selenium实现动态网页信息的爬取

wps演示如何设置阴影图片背景

手机版 网络编程 asp之家 www.aspxhome.com