python爬取之json、pickle与shelve库的深入讲解
作者:一秋闲谈 发布时间:2023-11-05 00:58:35
前言
在使用Python进行网络编程或者爬取一些自己感兴趣的东西时,总避免不了进行一些数据传输、存取等问题,Python的文件对象以及其他扩展库,已经解决了很多关于文本和二进制数据存取的问题,比如网页内容、图片&音视频等多媒体内容,但这些数据基本是最终的数据形态存储,有没有办法可以存储Python本身的一些对象数据,后续在使用的时候,再直接加载为Python对象即可,本文便讲解下常用的Python对象数据存取、传输解决方案,即pickle、shelve、json。
内容比较基础,也比较简单,但也是必须好好掌握的知识点,因为其潜在的应用场景太广
一、pickle
pickle库提供了一种将Python对象(所有对象)本地化存储的解决方案,后续还可以从这些文件内重新加载,加载后又是Python标准的对象数据,可以用Python直接使用。
pickle有以下特点:
可以存取所有类型Python对象,并本地化到一个文件内
每个文件内只能存储一个Python对象
1.1 临时转换
可以将Python对象临时转化为pickle序列(存储在变量内而不是文件内),后续再进行加载使用。
import pickle
a=[1,2,3,4]
#以下将a转化为pickle序列
p_a=pickle.dumps(a)
#以下将pickle序列转化为Python对象
a=pickle.loads(p_a)
1.2 永久化存取
可以将Python对象存储到本地文件内,方便下次取出继续使用。
import pickle
a=[1,2,3,4]
f=open('file.pkl','wb')
#以下将a转化为pickle序列并存储到本地文件
p_a=pickle.dump(a,f)
f=open('file.pkl','rb')
#以下将存储在本地文件内的pickle序列转化为Python对象
a=pickle.load(f)
f.close()
以上,首先打开一个文件,注意,因为pickle序列是二进制编码格式,所以文件模式需要有'b'
然后将Python对象序列化并存储到本地文件
后续可通过加载该文件,将里面存储的数据重新加载为Python对象
二、shelve
shelve库相当于基于pickle的优化,因为pickle单文件只能存储单个Python对象,并且每次存取都需要使用dump和load,比较繁琐,所以,该库主要做了以下优化:
创建了一个轻量级的键值对数据库,支持一个文件内存储多个Python对象
不需要每次都load,对Python数据的存取,变成了标准的字典访问
以下是演示代码:
import shelve
db=shelve.open('obj_db')
class A:...
a=[1,2,3];b=dict(name='dennis');c=A
db['a']=a
db['b']=b
db['c']=c
db['a']
db['b']
db['c']
db.close()
以上代码,首先使用shelve的open方法创建一个db,可以指定db文件的存储地址
然后便可以像使用字典一样,用来在该键值对的db内存储Python对象(任何Python对象)
然后可像字典访问一样,重新取出之前已经存储的对象,最后,别忘了战术性关闭db
如果想遍历或内省某db内存量键值,该db也有keys()和values()方法,也支持Python的迭代协议
所以,相较于pickle来说,会方便和强大很多
三、json
json是进行网络数据传输应用最为广泛的数据格式,其可以将Python指定的一些数据对象转化为json字符串,便于进行存储和网络传输,并将该json序列化的字符串重新转变为Python对象。
大体过程为Python→JSON→Python,所以可以进行CS数据传输和通信。
以下为json和Python数据转换映射表:
JSON | Python |
---|---|
object | dict |
array | list |
string | str |
number (int) | int |
number (real) | float |
true,false | Ture,False |
null | None |
3.1 临时转换
可以将Python对象临时转化为json字符串并赋值给某变量,待后续再对其转化为Python对象
一般用于网络传输,尤其是接口调用时数据传输。
import json
mylist=[1,2,3]
mydict={
'name':dennis
}
#临时转换
a=json.dumps(mydict)
b=json.dumps(mylist)
#将json字符串重新转为Python对象
mylist=json.loads(b)
mydict=json.loads(a)
3.2 永久化存取
可以将Python对象转换为json字符串并永久性存储在本地文件内,便于后续重新加载使用。
import json
mylist=[1,2,3]
mydict={
'name':dennis
}
#将Python对象转化为json字符串,同时存储到file内
with open('myjson.json','w') as f:
json.dump(mydict,f)
#将存储在文件内的json字符串加载并转化为Python对象
with open('myjson.json','r') as f:
json.load(f)
总结
来源:https://blog.csdn.net/yifengchaoran/article/details/114490694


猜你喜欢
- 一个已知管用的方法是,使用session_set_save_handler,接管所有的session管理工作,一般是把session信息存储
- 如何自动更新导航栏?下面看看如何具体使用Content Linking组件: <&nbs
- vue跳转后不记录历史记录vue路由跳转一般情况下是使用push, this.$router.push({  
- MySQL是一个跨平台的开源关系型数据库管理系统,是我们常用的最经济实惠的数据库,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特
- 如何利用pandas读取csv数据并绘图导包,常用的numpy和pandas,绘图模块matplotlib,import matplotli
- 一、if语句if 语句让你能够检查程序的当前状态,并据此采取相应的措施。if语句可应用于列表,以另一种方式处理列表中的大多数元素,以及特定值
- 实现效果实现代码from skimage import img_as_floatimport matplotlib.pyplot as pl
- 本文实例讲述了Python常用特殊方法。分享给大家供大家参考,具体如下:1 __init__和__new____init__方法用来初始化类
- 1、问题描述某厂生产甲乙两种饮料,每百箱甲饮料需用原料6千克、工人10名,获利10万元;每百箱乙饮料需用原料5千克、工人20名,获利9万元。
- 本文实例讲述了Python中文竖排显示的方法。分享给大家供大家参考。具体如下:这里将中文竖排显示比如 衣食者人之生利也,然且犹尚有节,葬埋者
- python循环结构Python中循环结构有两种类型,分别是:for(遍历循环)于while(无限循环),接下来对两种循环类型的使用与注意事
- 前言: 当我们需要存储小数,并且有精度要求,比如存储金额时,通常会考虑使用DECIMAL字段类型,可能大部分同学只是对DECIMAL类型略有
- 最近老是要为现在这个项目初始化数据,搞的很头疼,而且数据库的Id自增越来越大,要让自增重新从1开始:那么就用下面的方法吧:方法一:如果曾经的
- 如何制作一个搜索引擎链接程序?多收集几个网站的,然后我们引用它到自己的页面中。接下来,我们要创建页面用于搜索:<center>&
- 非Web程序(桌面程序)的设置一般都存在注册表中。 给这些程序做自动化测试时, 需要经常要跟注册表打交道。 通过修改注册表来修改程序的设置。
- 一、前言:在经过一段时间的存储过程开发之后,写下了一些开发时候的小结和经验与大家共享,希望对大家有益,主要是针对Sybase和SQL Ser
- 概述介绍触发器,就是一种特殊的存储过程。触发器和存储过程一样是一个能够完成特定功能、存储在数据库服务器上的SQL片段,但是触发器无需调用,当
- 使用ASP实现网站的目录树数据库结构(共使用了两个表)1。tblCategory字段名 类型 Root&
- 我们看一个现象:import pandas as pdtitanic = pd.read_csv('titanic_data.csv
- 1.彻底弄懂CSS盒子模式一(DIV布局快速入门)3.彻底弄懂CSS盒子模式三(浮动的表演和清除的自述) 4.彻底弄懂CSS盒子模式四(绝对