如何利用Python解析超大的json数据(GB级别)
作者:超级宇宙无敌乖宝宝 发布时间:2023-03-22 12:08:21
使用Python解析各种格式的数据都很方便,比如json、txt、xml、csv等。用于处理简单的数据完全足够用了,而且代码简单易懂。
前段时间我遇到一个问题,如何解析超大的json文件呢?刚开始天真的我在使用json.load直接加载json文件,然而内存报错却给了我当头一棒,json.load它是直接将数据加载到内存中然后解析出来的,这说明什么呢?当你的json文件过于庞大的时候,你的电脑内存装不下你的json文件,这时候就相当尴尬了,加载不了,解析不了!!
怎么办呢?我赶紧上网查阅资料,网上大部份资料都是基于分块的思路解决超大数据文件的解析的,比如read函数可以一块一块加载,像这样read(1024)每次读取1024字节,总能将数据读取完的。或者是readline函数,每次读取一行,这个函数的读取方式特别适合txt、csv文件。然而这样的函数对于json格式的数据就完全不适用了,因为json格式的文件是有严格的结构的。你不可能一块一块的或者一行一行的读取,噢不对,你可以这样读取,但是你这样读取出来的数据是完全没有意义的,因为无法解析,你无法获得你想要的数据。
块读取的方式不行,那该怎么办呢,流式读取呗,这时候我想起了万能的GitHub,上去Github搜索python json parser。看看我发现了什么!!!
啊,太棒了,光看简介基于python的迭代的json解析器,我感觉我的问题可能要被解决掉了。
果不其然,ijson完美的解决了我的问题,它抽取了json文件的特征形成了一个生成器的东西,下面举一个实例。
{
"earth": {
"europe": [
{
"name": "Paris",
"type": "city",
"info": "aaa"
},
{
"name": "Thames",
"type": "river",
"info": "sss"
},
{
"name": "yyy",
"type": "city",
"info": "aaa"
},
{
"name": "eee",
"type": "river",
"info": "sss"
}
],
"america": [
{
"name": "Texas",
"type": "state",
"info": "jjj"
}
]
}
}
这是一个简单的json文件,用它来演示json的效果。
import ijson
with open('test.json', 'r', encoding='utf-8') as f:
objects = ijson.items(f, 'earth.europe.item')
#这个objects在这里就是相当于一个生成器,可以调用next函数取它的下一个值
while True:
try:
print(objects.__next__())
except StopIteration as e:
print("数据读取完成")
break
很好,接下来看一下效果如何。
{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
数据读取完成
是不是很棒呢?
这样不会出现内存撑爆了的错误,因为它类似于生成器的方式流式读取json数据,熟悉生成器的朋友应该就很清楚了。
如果想要加速读取解析json文件,可以加上threading多线程模块。这里就不做演示了。
另外附上ijson模块的文档地址:https://pypi.org/project/ijson/文档本人就看了一部分。更多的内容没有深入了解,有兴趣的大佬可以深入研究下。
来源:https://www.cnblogs.com/hexiaoqi/p/13040074.html


猜你喜欢
- 有时候要用Javascript输常用的字符,比如每个页面都要有的脚注。这里提供一个转换脚本:将HTML自动转为JS代码<script&
- 1.resource fopen(string $filename, string $mode [,bool $us
- 前言在目标检测中,数据集常常使用labelimg标注,会生成xml文件。本文旨在根据xml标注文件来裁剪目标,以达到去除背景信息的目的。xm
- 在网上找了很多资料,但是一直没有实际效果,现在终于搞定问题如下: 用的post请求,然后入参格式为json并且入参中包含中文,调用
- 有一个查询如下: 代码如下:SELECT c.CustomerId, CompanyName FROM Customers c
- 本文实例讲述了MySQL联合索引。分享给大家供大家参考,具体如下:员工表 userid部门表 deptid员工部门表条件:一个员工可以对应多
- 本文实例讲述了Python编程中event对象的用法。分享给大家供大家参考,具体如下:Python提供了Event对象用于线程间通信,它是由
- 文件对象提供了 read() 方法来按字节或字符读取文件内容,到底是读取宇节还是字符,则取决于是否使用了 b 模式,如果使用了 b 模式,则
- 首先上一段程序:import numpy as nplist_a = list(range(10))print("list_a:
- parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是:可以跳过不符合条件的数据,只读取需要
- 信息图表设计(Inforgraphic Design),是信息设计(Information Design)学科的一个分支,它兴起于20世纪末
- 各位想必都知道,onfocus="this.blur()"这条代码能消除链接时的虚线框,但你有没有想过,如果你的网页上有
- python3 判断空列表@(python3)有个判断列表是否为空的需求,试了好多方式,比如:a = []if a is not None:
- 1、需求当工作在UNIX Shell下时,我们想使用常见的通配符模式(即:.py,Dat[0-9].csv等)来对文本做匹配。2、解决方案f
- django中,很多时候我们都需要有一个地方来进行更加详细的权限控制,例如说哪些用户可以访问哪些页面,检查登录状态等,这里的话就涉及到了中间
- 前言:分区是一种表的设计模式,正确的分区可以极大地提升数据库的查询效率,完成更高质量的SQL编程。但是如果错误地使用分区,那么分区可能带来毁
- 目录前言简单介绍创建或连接数据库游标创建表插入查询查询总数查询所有查询第一条分页查询更新删除总结前言sqlite的官网 sqlite.org
- 简介pygame模块用于变换Surface,Surface变换是一种移动或调整像素大小的操作。所有这些函数都是对一个Surface进行操作,
- 给定损失函数的输入y,pred,shape均为bxc。若设定loss_fn = torch.nn.MSELoss(reduction=
- 输入任意一个大写字母,生成金字塔图形def GoldTa(input): L = [chr(i) for i in range(