网络编程
位置:首页>> 网络编程>> Python编程>> Pandas数据集的分块读取的实现

Pandas数据集的分块读取的实现

作者:文程公子  发布时间:2021-02-03 07:52:24 

标签:Pandas,数据集,分块读取

所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。

一、直接用分块方式读取数据集文件(更直接)

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                    chunksize=10)

此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:

for r in reader:
   print(r)

遍历结果如下图所示:

Pandas数据集的分块读取的实现

这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象,再分块读取(更灵活)

 这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                   iterator=True)

以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:

while True:
   try:
       print(reader.get_chunk(10))
   except StopIteration:
       break

来源:https://blog.csdn.net/weixin_45370422/article/details/125963245

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com