位置：首页>> 网络编程>> Python编程>> Pandas数据集的分块读取的实现

Pandas数据集的分块读取的实现

作者：文程公子　　发布时间：2021-02-03 07:52:24　

标签：Pandas,数据集,分块读取

所谓“分块”，顾名思义，就是将数据集分成几块进行读取，比如有105条数据，一次读取10条，读取11次才能全部读完。以下提供两种分块读取的方法，两种方法各有优劣。

一、直接用分块方式读取数据集文件（更直接）

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式，这里以.csv文件为例，在read_csv()中加入chunksize参数即可实现分块读取：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
chunksize=10)

此时，返回的reader不是DataFrame，而是一个可迭代对象（iteration），需要注意的是，这个可迭代对象不能用下标访问。下面遍历这个对象：

for r in reader:
print(r)

遍历结果如下图所示：

这种分块读取方式比较直接，但是由于一开始就定义了分块大小，后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象，再分块读取（更灵活）

这种方法将数据集文件读取为时可迭代对象不定义分块，用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
iterator=True)

以下是用分块方式遍历reader，注意使用到的get_chunk()方法和里面的参数，参数定义分块大小，可以灵活调节：

while True:
try:
print(reader.get_chunk(10))
except StopIteration:
break

来源：https://blog.csdn.net/weixin_45370422/article/details/125963245

0

投稿

猜你喜欢

解决在keras中使用model.save()函数保存模型失败的问题
我使用的是anaconda安装的环境，其中有一个是h5py，自动安装的是2.7.0的版本，这个版本会导致保存模型时python奔溃。cond
javascript设计模式 – 桥接模式原理与应用实例分析
本文实例讲述了javascript设计模式 – 桥接模式原理与应用。分享给大家供大家参考，具体如下：介绍：如果软件系统中某个类存在两个或多个
vue keep-alive的简单总结
一、作用主要用于保留组件状态或避免重新渲染。二、用法<keep-alive> 包裹动态组件时，会缓存不活动的组件实例，
学习JavaScript设计模式之中介者模式
一、定义面向对象设计鼓励将行为分布到各个对象中，把对象划分成更小的粒度，有助于增强对象的可复用性。但由于这些细粒度对象之间的联系激增，又可能
使用mysqldump导入数据和mysqldump增量备份(mysqldump使用方法)
1、各种用法说明A. 最简单的用法：mysqldump -uroot -pPassword [database name] &g
Go整合captcha实现验证码功能
最近在使用Go语言搞一个用户登录&注册的功能，说到登录&注册相关，我们油然会产生一种增加验证码的想法，因此着手实现，后来在G
IDA Pro 6.0使用Qt框架实现了跨平台的UI界面
IDA Pro 6.0使用Qt 框架实现了跨平台的UI。它的好处是插件编写者还可以直接使用 Qt 开发跨平台 UI。但是编剧呢？在这篇博文中
pandas中去除指定字符的实例
例表：假如想要去掉表中的‘#'，‘；'而且以‘#'和‘；'为分割线切割数据：#将dfxA_2的每一个分隔符之
golang使用json格式实现增删查改的实现示例
需求和思路在一般的小项目或者一个小软件,例如客户端之类的小程序中,可能会需要数据的持久化.但是使用一般的数据库(Mysql)之类的不合适.使
python递归打印某个目录的内容(实例讲解)
以下函数列出某个目录下（包括子目录）所有文件，本随笔重点不在于递归函数的实现，这是一个很简单的递归，重点在于熟悉Python 库os以及os
PHP行为设计模式之策略模式
PHP策略模式（Strategy Pattern）策略模式是一种行为设计模式，它允许在运行时选择算法行为的方法。该模式定义了一组算法，将每个
Python爬取网页中的图片（搜狗图片）详解
前言最近几天，研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文：你可能需要的工作环境：Python 3.6官网下载
Python如何把不同类型数据的json序列化
现代网络应用Web APP或大型网站的后台一般只有一个，然后客户端却是各种各样的(iOS, android, 浏览器),
python3.3教程之模拟百度登陆代码分享
#-*-coding:utf-8-*-'''Created on 2014年1月10日@author: hhdys&
python基础教程之csv格式文件的写入与读取
csv的简单介绍CSV (Comma Separated Values)，即逗号分隔值（也称字符分隔值，因为分隔符可以不是逗号），是一种常用
8种Python异常检测算法总结
一、异常检测简介异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据，也被称为离群点、异常值检测等等。1.1 异常检测适用的场景异常检
mysql从执行.sql文件时处理换行的问题
在备份数据库的时候，数据表中可能存在这样的值array('a'='b','c'='d
Mysql彻底解决中文乱码问题的方案(Illegal mix of collations for operation)
mysql 中常常出现对中文支持不友好的情况常见的错误 “Illegal mix of collations for operation”下
如何获知文件被改动的情况？
我们可用如下代码进行监控：函数中使用了fso对象来读取文件属性。Function File_GetLastModifi
python学习之列表的运用
创建列表list( ) # 创造列表list(可迭代对象)# 将可迭代对象创造成列表切片索引：列表[a:b]切片索引赋值：列表[切片] =

个人微信公众号接入ChatGPT的教程分享

详解Python不同版本之间的切换方法

python爬虫使用requests发送post请求示例详解

Django如何实现防止XSS攻击

Pandas实现dataframe和np.array的相互转换

详解python 模拟豆瓣登录（豆瓣6.0）

python使用openai生成图像的超详细教程

安装pytorch报错torch.cuda.is_available()=false问题的解决过程

Python机器学习实战之k-近邻算法的实现

python中学习K-Means和图片压缩

Surface 3的Win10 Windows Update预发布驱动

SQL查询不重复记录/删除重复记录

Win10系统设置屏幕自动关闭时间操作步骤

为什么win7玩游戏时全屏会自动弹回桌面

SpringMVC bean加载控制的实现分析

Photoshop广告头像磨皮及调色

JDK1.8新特性之方法引用 ::和Optional详解

关于utf-8格式中截取中英文字符串长度无效的问题

Mysql 数据库双机热备的配置方法

QQ飞车手游青鸾什么时候上线？QQ飞车青鸾上线解析

手机版 网络编程 asp之家 www.aspxhome.com