位置：首页>> 网络编程>> Python编程>> python爬取之json、pickle与shelve库的深入讲解

python爬取之json、pickle与shelve库的深入讲解

作者：一秋闲谈　　发布时间：2023-11-05 00:58:35　

标签：python,json,shelve库

前言

在使用Python进行网络编程或者爬取一些自己感兴趣的东西时，总避免不了进行一些数据传输、存取等问题，Python的文件对象以及其他扩展库，已经解决了很多关于文本和二进制数据存取的问题，比如网页内容、图片&音视频等多媒体内容，但这些数据基本是最终的数据形态存储，有没有办法可以存储Python本身的一些对象数据，后续在使用的时候，再直接加载为Python对象即可，本文便讲解下常用的Python对象数据存取、传输解决方案，即pickle、shelve、json。

内容比较基础，也比较简单，但也是必须好好掌握的知识点，因为其潜在的应用场景太广

一、pickle

pickle库提供了一种将Python对象（所有对象）本地化存储的解决方案，后续还可以从这些文件内重新加载，加载后又是Python标准的对象数据，可以用Python直接使用。

pickle有以下特点：

可以存取所有类型Python对象，并本地化到一个文件内
每个文件内只能存储一个Python对象

1.1 临时转换

可以将Python对象临时转化为pickle序列（存储在变量内而不是文件内），后续再进行加载使用。

import pickle
a=[1,2,3,4]
#以下将a转化为pickle序列
p_a=pickle.dumps(a)

#以下将pickle序列转化为Python对象
a=pickle.loads(p_a)

1.2 永久化存取

可以将Python对象存储到本地文件内，方便下次取出继续使用。

import pickle
a=[1,2,3,4]
f=open('file.pkl','wb')

#以下将a转化为pickle序列并存储到本地文件
p_a=pickle.dump(a,f)

f=open('file.pkl','rb')
#以下将存储在本地文件内的pickle序列转化为Python对象
a=pickle.load(f)

f.close()

以上，首先打开一个文件，注意，因为pickle序列是二进制编码格式，所以文件模式需要有'b'

然后将Python对象序列化并存储到本地文件

后续可通过加载该文件，将里面存储的数据重新加载为Python对象

二、shelve

shelve库相当于基于pickle的优化，因为pickle单文件只能存储单个Python对象，并且每次存取都需要使用dump和load，比较繁琐，所以，该库主要做了以下优化：

创建了一个轻量级的键值对数据库，支持一个文件内存储多个Python对象
不需要每次都load，对Python数据的存取，变成了标准的字典访问

以下是演示代码：

import shelve
db=shelve.open('obj_db')
class A:...
a=[1,2,3];b=dict(name='dennis');c=A
db['a']=a
db['b']=b
db['c']=c

db['a']
db['b']
db['c']

db.close()

以上代码，首先使用shelve的open方法创建一个db，可以指定db文件的存储地址

然后便可以像使用字典一样，用来在该键值对的db内存储Python对象（任何Python对象）

然后可像字典访问一样，重新取出之前已经存储的对象，最后，别忘了战术性关闭db

如果想遍历或内省某db内存量键值，该db也有keys()和values()方法，也支持Python的迭代协议

所以，相较于pickle来说，会方便和强大很多

三、json

json是进行网络数据传输应用最为广泛的数据格式，其可以将Python指定的一些数据对象转化为json字符串，便于进行存储和网络传输，并将该json序列化的字符串重新转变为Python对象。

大体过程为Python→JSON→Python，所以可以进行CS数据传输和通信。

以下为json和Python数据转换映射表：

JSON	Python
object	dict
array	list
string	str
number (int)	int
number (real)	float
true,false	Ture,False
null	None

3.1 临时转换

可以将Python对象临时转化为json字符串并赋值给某变量，待后续再对其转化为Python对象

一般用于网络传输，尤其是接口调用时数据传输。

import json
mylist=[1,2,3]
mydict={
'name':dennis
}
#临时转换
a=json.dumps(mydict)
b=json.dumps(mylist)
#将json字符串重新转为Python对象
mylist=json.loads(b)
mydict=json.loads(a)

3.2 永久化存取

可以将Python对象转换为json字符串并永久性存储在本地文件内，便于后续重新加载使用。

import json
mylist=[1,2,3]
mydict={
'name':dennis
}

#将Python对象转化为json字符串，同时存储到file内
with open('myjson.json','w') as f:
json.dump(mydict,f)

#将存储在文件内的json字符串加载并转化为Python对象
with open('myjson.json','r') as f:
json.load(f)

总结

来源：https://blog.csdn.net/yifengchaoran/article/details/114490694

投稿

python爬取之json、pickle与shelve库的深入讲解

前言

一、pickle

二、shelve

三、json

总结

猜你喜欢