Pandas数据集的分块读取的实现
作者:文程公子 发布时间:2021-02-03 07:52:24
标签:Pandas,数据集,分块读取
所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。
一、直接用分块方式读取数据集文件(更直接)
分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
chunksize=10)
此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:
for r in reader:
print(r)
遍历结果如下图所示:
这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。
二、先将数据集读取为可迭代对象,再分块读取(更灵活)
这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:
reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
iterator=True)
以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:
while True:
try:
print(reader.get_chunk(10))
except StopIteration:
break
来源:https://blog.csdn.net/weixin_45370422/article/details/125963245


猜你喜欢
- 我使用的是anaconda安装的环境,其中有一个是h5py,自动安装的是2.7.0的版本,这个版本会导致保存模型时python奔溃。cond
- 本文实例讲述了javascript设计模式 – 桥接模式原理与应用。分享给大家供大家参考,具体如下:介绍:如果软件系统中某个类存在两个或多个
- 一、作用主要用于保留组件状态或避免重新渲染。二、用法<keep-alive> 包裹动态组件时,会缓存不活动的组件实例,
- 一、定义面向对象设计鼓励将行为分布到各个对象中,把对象划分成更小的粒度,有助于增强对象的可复用性。但由于这些细粒度对象之间的联系激增,又可能
- 1、各种用法说明A. 最简单的用法:mysqldump -uroot -pPassword [database name] &g
- 最近在使用Go语言搞一个用户登录&注册的功能,说到登录&注册相关,我们油然会产生一种增加验证码的想法,因此着手实现,后来在G
- IDA Pro 6.0使用Qt 框架实现了跨平台的UI。它的好处是插件编写者还可以直接使用 Qt 开发跨平台 UI。但是编剧呢?在这篇博文中
- 例表:假如想要去掉表中的‘#',‘;'而且以‘#'和‘;'为分割线切割数据:#将dfxA_2的每一个分隔符之
- 需求和思路在一般的小项目或者一个小软件,例如客户端之类的小程序中,可能会需要数据的持久化.但是使用一般的数据库(Mysql)之类的不合适.使
- 以下函数列出某个目录下(包括子目录)所有文件,本随笔重点不在于递归函数的实现,这是一个很简单的递归,重点在于熟悉Python 库os以及os
- PHP策略模式(Strategy Pattern)策略模式是一种行为设计模式,它允许在运行时选择算法行为的方法。该模式定义了一组算法,将每个
- 前言最近几天,研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文:你可能需要的工作环境:Python 3.6官网下载
- 现代网络应用Web APP或大型网站的后台一般只有一个,然后客户端却是各种各样的(iOS, android, 浏览器),
- #-*-coding:utf-8-*-'''Created on 2014年1月10日@author: hhdys&
- csv的简单介绍CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用
- 一、异常检测简介异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。1.1 异常检测适用的场景异常检
- 在备份数据库的时候,数据表中可能存在这样的值array('a'='b','c'='d
- mysql 中常常出现对中文支持不友好的情况常见的错误 “Illegal mix of collations for operation”下
- 我们可用如下代码进行监控:函数中使用了fso对象来读取文件属性。Function File_GetLastModifi
- 创建列表list( ) # 创造列表list(可迭代对象)# 将可迭代对象创造成列表切片索引:列表[a:b]切片索引赋值:列表[切片] =