Python 解析库json及jsonpath pickle的实现
作者:Amo Xiang 发布时间:2021-09-10 00:27:14
标签:Python,解析库json,jsonpath,pickle
1. 数据抽取的概念
2. 数据的分类
3. JSON数据概述及解析
3.1 JSON数据格式
3.2 解析库json
json模块
是Python内置标准库,主要可以完成两个功能:序列化和反序列化。JSON对象和Python对象映射图如下:
3.2.1 json序列化
对象(字典/列表) 通过 json.dump()/json.dumps()
==> json字符串。示例代码如下:
import json
class Phone(object):
def __init__(self, name, price):
self.name = name
self.price = price
class Default(json.JSONEncoder):
def default(self, o):
print(o) # o: <__main__.Phone object at 0x10aa52c90>
return [o.name, o.price]
def parse(obj):
print(obj)
return {"name": obj.name, "price": obj.price}
person_info_dict = {
"name": "Amo",
"age": 18,
"is_boy": True,
# "n": float("nan"), # float("nan"):NaN float("inf")=>Infinity float("-inf")=>-Infinity
"phone": Phone("苹果8plus", 6458),
"hobby": ("sing", "dance"),
"dog": {
"name": "藏獒",
"age": 5,
"color": "棕色",
"isVIP": True,
"child": None
},
}
"""
obj:需要序列化的对象 字典/列表 这里指的是person_info_dict
indent: 缩进 单位: 字符
sort_keys: 是否按key排序 默认是False不排序
cls: json.JSONEncoder子类 处理不能序列化的对象
ensure_ascii: 是否确保ascii编码 默认是True确保 "苹果8plus"==>"\u82f9\u679c8plus" 所以改为False
default: 对象不能被序列化时,调用对应的函数解析
"""
# 将结果返回给一个变量
result = json.dumps(person_info_dict,
indent=2,
sort_keys=True,
ensure_ascii=False,
# cls=Default,
default=parse,
# allow_nan=False 是否处理特殊常量值
# 默认为True 但是JSON标准规范不支持NaN, Infinity和-Infinity
)
print(result)
with open("dump.json", "w", encoding="utf8") as file:
# json.dump是将序列化后的内容存储到文件中 其他参数用法和dumps一致
json.dump(person_info_dict, file, indent=4, ensure_ascii=False, default=parse)
3.2.2 json反序列化
json字符串通过json.load()/json.loads()
==> 对象(字典/列表),示例代码如下:
import json
class Phone(object):
def __init__(self, name, price):
self.name = name
self.price = price
def pi(num):
return int(num) + 1
def oh(dic):
if "price" in dic.keys():
return Phone(dic["name"], dic["price"])
return dic
def oph(*args, **kwargs):
print(*args, **kwargs)
# 我自己本地有一个dump.json文件
with open("dump.json", "r", encoding="utf8") as file:
# content = file.read()
# parse_int/float: 整数/浮点数钩子函数
# object_hook: 对象解析钩子函数 将字典转为特定对象 传递给函数的是字典对象
# object_pairs_hook: 转化为特定对象 传递的是元组列表
# parse_constant: 常量钩子函数 NaN/Infinity/-Infinity
# result = json.loads(content, object_hook=oh, parse_int=pi, object_pairs_hook=oph)
result = json.load(file, parse_int=pi, object_hook=oh) # 直接将文件对象传入
print(type(result)) # <class 'dict'>
print(result)
4. jsonpath
jsonpath
三方库,点击这里这里进入官网,通过路径表达式,来快速获取字典当中的指定数据,灵感来自xpath表达式。命令安装:
pip install --user -i http://pypi.douban.com/simple --trusted-host pypi.douban.com jsonpath
或者:
4.1 使用
语法格式如下:
from jsonpath import jsonpath
dic = {....} # 要找数据的字典
jsonpath(dic, 表达式)
常用的表达式语法如下:
JSONPath | 描述 |
---|---|
$ | 根节点(假定的外部对象,可以理解为上方的dic) |
@ | 现行节点(当前对象) |
.或者[] | 取子节点(子对象) |
.. | 就是不管位置,选择所有符合条件的节点(后代对象) |
* | 匹配所有元素节点 |
[] | 迭代集合,谓词条件,下标 |
[,] | 多选 |
?() | 支持过滤操作 |
() | 支持表达式操作 |
[start: end : step] | 切片 |
4.2 使用示例
案例一用到的字典如下:
dic = {
"person": {
"name": "Amo",
"age": 18,
"dog": [{
"name": "小花",
"color": "red",
"age": 6,
"isVIP": True
},
{
"name": "小黑",
"color": "black",
"age": 2
}]
}
}
将上述抽象成一个树形结构如图所示:
需求及结果如下:
JSONPath | Result |
---|---|
$.person.age | 获取人的年龄 |
$..dog[1].age | 获取第2个小狗的年龄 |
$..dog[0,1].age | $..dog[*].age | 获取所有小狗的年龄 |
$..dog[?(@.isVIP)] | 获取是VIP的小狗 |
$..dog[?(@.age>2)] | 获取年龄大于2的小狗 |
$..dog[-1:] | $..dog[(@.length-1)] | 获取最后一个小狗 |
代码如下:
from jsonpath import jsonpath
dic = {
"person": {
"name": "Amo",
"age": 18,
"dog": [{
"name": "小花",
"color": "red",
"age": 6,
"isVIP": True
},
{
"name": "小黑",
"color": "black",
"age": 2
}]
}
}
# 1.获取人的年龄
print(jsonpath(dic, "$.person.age")) # 获取到数据返回一个列表 否则返回False
# 2.获取第2个小狗的年龄
print(jsonpath(dic, "$..dog[1].age"))
# 3.获取所有小狗的年龄
print(jsonpath(dic, "$..dog[0,1].age"))
print(jsonpath(dic, "$..dog[*].age"))
# 4.获取是VIP的小狗
print(jsonpath(dic, "$..dog[?(@.isVIP)]"))
# 5.获取年龄大于2的小狗
print(jsonpath(dic, "$..dog[?(@.age>2)]"))
# 6.获取最后一个小狗
print(jsonpath(dic, "$..dog[-1:]"))
print(jsonpath(dic, "$..dog[(@.length-1)]"))
上述代码执行结果如下:
案例二用到的字典如下:
book_dict = {
"store": {
"book": [
{"category": "reference",
"author": "Nigel Rees",
"title": "Sayings of the Century",
"price": 8.95
},
{"category": "fiction",
"author": "Evelyn Waugh",
"title": "Sword of Honour",
"price": 12.99
},
{"category": "fiction",
"author": "Herman Melville",
"title": "Moby Dick",
"isbn": "0-553-21311-3",
"price": 8.99
},
{"category": "fiction",
"author": "J. R. R. Tolkien",
"title": "The Lord of the Rings",
"isbn": "0-395-19395-8",
"price": 22.99
}
],
"bicycle": {
"color": "red",
"price": 19.95
}
}
}
将上述抽象成一个树形结构如图所示:
需求及结果如下:
JSONPath | Result |
---|---|
$.store.book[*].author | store中的所有的book的作者 |
$.store[*] | store下的所有的元素 |
$..price | store中的所有的内容的价格 |
$..book[2] | 第三本书 |
$..book[(@.length-1)] | 最后一本书 |
$..book[0:2] | 前两本书 |
$.store.book[?(@.isbn)] | 获取有isbn的所有书 |
$.store.book[?(@.price>10)] | 获取价格大于10的所有的书 |
$..* | 获取所有的数据 |
代码如下:
from jsonpath import jsonpath
book_dict = {
"store": {
"book": [
{"category": "reference",
"author": "Nigel Rees",
"title": "Sayings of the Century",
"price": 8.95
},
{"category": "fiction",
"author": "Evelyn Waugh",
"title": "Sword of Honour",
"price": 12.99
},
{"category": "fiction",
"author": "Herman Melville",
"title": "Moby Dick",
"isbn": "0-553-21311-3",
"price": 8.99
},
{"category": "fiction",
"author": "J. R. R. Tolkien",
"title": "The Lord of the Rings",
"isbn": "0-395-19395-8",
"price": 22.99
}
],
"bicycle": {
"color": "red",
"price": 19.95
}
}
}
# 1.store中的所有的book的作者
print(jsonpath(book_dict, "$.store.book[*].author"))
print(jsonpath(book_dict, "$..author"))
# 2.store下的所有的元素
print(jsonpath(book_dict, "$.store[*]"))
print(jsonpath(book_dict, "$.store.*"))
# 3.store中的所有的内容的价格
print(jsonpath(book_dict, "$..price"))
# 4.第三本书
print(jsonpath(book_dict, "$..book[2]"))
# 5.最后一本书
print(jsonpath(book_dict, "$..book[-1:]"))
print(jsonpath(book_dict, "$..book[(@.length-1)]"))
# 6.前两本书
print(jsonpath(book_dict, "$..book[0:2]"))
# 7.获取有isbn的所有书
print(jsonpath(book_dict, "$.store.book[?(@.isbn)]"))
# 8.获取价格大于10的所有的书
print(jsonpath(book_dict, "$.store.book[?(@.price>10)]"))
# 9.获取所有的数据
print(jsonpath(book_dict, "$..*"))
5. Python专用JSON解析库pickle
pickle
处理的json对象不通用,可以额外的把函数给序列化。示例代码如下:
import pickle
def eat():
print("Amo在努力地写博客~")
person_info_dict = {
"name": "Amo",
"age": 18,
"eat": eat
}
# print(pickle.dumps(person_info_dict))
with open("pickle_json", "wb") as file:
pickle.dump(person_info_dict, file)
with open("pickle_json", "rb") as file:
result = pickle.load(file)
result["eat"]()
JsonPath与XPath语法对比:
Json结构清晰,可读性高,复杂度低,非常容易匹配,下表中对应了XPath的用法。
XPath | JSONPath | 描述 |
---|---|---|
/ | $ | 根节点 |
. | @ | 现行节点 |
/ | .or[] | 取子节点 |
.. | n/a | 取父节点,Jsonpath未支持 |
// | .. | 就是不管位置,选择所有符合条件的条件 |
* | * | 匹配所有元素节点 |
@ | n/a | 根据属性访问,Json不支持,因为Json是个Key-value递归结构,不需要。 |
[] | [] | 迭代器标示(可以在里边做简单的迭代操作,如数组下标,根据内容选值等) |
| | [,] | 支持迭代器中做多选。 |
[] | ?() | 支持过滤操作. |
n/a | () | 支持表达式计算 |
() | n/a | 分组,JsonPath不支持 |
来源:https://blog.csdn.net/xw1680/article/details/105822943
0
投稿
猜你喜欢
- 提到SQL Server 2005证书,很多人可能以为它只是用来在传输数据的时候起到加密作用的,但在深入了解后,你会发现它的用处还有很多。
- Python 输出 "Hello, World!",英文没有问题,但是如果你输出中文字符"你好,世界"
- 最近在用python写接口的测试程序,期间用到解析字典获取某个key的value,由于多个接口返回的字典格式不是固定的并存在多层嵌套的情况。
- 以下插件是我在项目中经常使用的jQuery插件,不见得是最好的,但是我目前接触到的jQuery插件中最适合我的。01. jQuery.Fle
- 流行的 JavaScript 库有jQuery,MooTools,Prototype,Dojo和YUI等,这些 JavaScript 库功能
- 什么是F型浏览?2006年4月,美国长期研究网站可用性的著名网站设计师杰柯柏·尼尔森(Jakob Nielsen)发表了一项《眼球轨迹的研究
- 1-删除模型变量del model_define2-清空CUDA cachetorch.cuda.empty_cache()3-步骤2(异步
- python解决循环依赖1.概述在使用python开发过程中在引入其他模块时可能都经历过一个异常就是循环引用most likely due
- 在讲样式表开发管理之前,我想插播一个小知识。前几天看web标准设计组里,看到龍佑康同学问到关于 block 和 inline 的区别。记得以
- 原文件:7.8094,1.0804,5.7632,0.012269,0.008994,-0.003469,-0.79279,-0.06468
- 如下所示:3σ 原则(u-3*σ ,u+3*σ )离差标准化(x-min)/(max-min)标准差标准化(x-u)/σ小数定标标准化x/1
- 相同点: a. 两者都需要直接抓取到网页源码才能有效工作, b. 两者单位时间内会多次大量抓取被访问的网站内容; c. 宏观上来讲两者IP都
- #!/usr/bin/env/ python#coding=utf-8import mechanizeimport cookielib# C
- 本文是小编日常收集整理些js经典实例,特此分享供大家参考!跨浏览器添加事件//跨浏览器添加事件function addEvent(obj,t
- <%'解析一个xml文件的公用函数集合dim document'装载一个xml文档,函数名Loaddocument(文
- 一、制作播放器的思路制作一个多功能音乐播放器的思路确定播放器的需求和功能,例如支持哪些音频格式、播放列表管理、循环播放、暂停、进度条显示等等
- 高级语言不能直接被机器所理解执行,所以都需要一个翻译的阶段,解释型语言用到的是解释器,编译型语言用到的是编译器。编译型语言通常的执行过程是:
- ancestor:祖先adjacent:相邻algorithm:运算法则anonymous box:无名盒子。例: anonymous in
- 编写Python代码,大家都需要遵循PEP8,因此在pycharm中,如何设置每行最大长度限制,成为了一个小的知识盲点,在这里做一下记录,方
- 本文实例讲述了Python单向链表和双向链表原理与用法。分享给大家供大家参考,具体如下:链表是一种数据结构,链表在循环遍历的时候效率不高,但