带你一文读懂Python垃圾回收机制
作者:程序员老华 发布时间:2022-03-03 11:58:03
得益于 Python
的自动垃圾回收机制,在 Python
中创建对象时无须手动释放。这对开发者非常友好,让开发者无须关注低层内存管理。但如果对其垃圾回收机制不了解,很多时候写出的 Python
代码会非常低效。
垃圾回收算法有很多,主要有: 引用计数
、 标记-清除
、 分代收集
等。
在 python
中,垃圾回收算法以 引用计数
为主, 标记-清除
和 分代收集
两种机制为辅。
1 引用计数
1.1 引用计数算法原理
引用计数原理比较简单:
每个对象有一个整型的引用计数属性。用于记录对象被引用的次数。例如对象 A
,如果有一个对象引用了 A
,则 A
的引用计数 +1
。当引用删除时, A
的引用计数 -1
。当 A
的引用计数为0时,即表示对象 A
不可能再被使用,直接回收。
在 Python
中,可以通过 sys
模块的 getrefcount
函数获取指定对象的引用计数器的值,我们以实际例子来看。
import sys
class A():
def __init__(self):
pass
a = A()
print(sys.getrefcount(a))
运行上面代码,可以得到输出结果为 2
。
1.2 计数器增减条件
上面我们看到,创建一个 A
对象,并将对象赋值给 a
变量后,对象的引用计数器值为 2
。那么什么时候计数器会 +1
,什么时候计数器会 -1
呢?
1.2.1 引用计数+1的条件
A()
a=A()
func(a)
arr=[a,a]
1.2.2 引用计数-1的条件
对象被显式销毁,如 del a
。变量重新赋予新的对象,例如 a=0
。对象离开它的作用域,如 func
函数执行完毕时, func
函数中的局部变量(全局变量不会)。
对象所在的容器被销毁,或从容器中删除对象。
1.2.3 代码实战
为了更好的理解计数器的增减,我们运行实际代码,一目了然。
import sys
class A():
def __init__(self):
pass
print("创建对象 0 + 1 =", sys.getrefcount(A()))
a = A()
print("创建对象并赋值 0 + 2 =", sys.getrefcount(a))
b = a
c = a
print("赋给2个变量 2 + 2 =", sys.getrefcount(a))
b = None
print("变量重新赋值 4 - 1 =", sys.getrefcount(a))
del c
print("del对象 3 - 1 =", sys.getrefcount(a))
d = [a, a, a]
print("3次加入列表 2 + 3 =", sys.getrefcount(a))
def func(c):
print('传入函数 1 + 2 = ', sys.getrefcount(c))
func(A())
输出结果如下:
创建对象 0 + 1 = 1
创建对象并赋值 0 + 2 = 2
赋给2个变量 2 + 2 = 4
变量重新赋值 4 - 1 = 3
del对象 3 - 1 = 2
3次加入列表 2 + 3 = 5
传入函数 1 + 2 = 3
1.3 引用计数的优点与缺点
1.3.1 引用计数优点
高效、逻辑简单,只需根据规则对计数器做加减法。
实时性。一旦对象的计数器为零,就说明对象永远不可能再被用到,无须等待特定时机,直接释放内存。
1.3.2 引用计数缺点
需要为对象分配引用计数空间,增大了内存消耗。
当需要释放的对象比较大时,如字典对象,需要对引用的所有对象循环嵌套调用,可能耗时比较长。
循环引用。 这是引用计数的致命伤,引用计数对此是无解的,因此必须要使用其它的垃圾回收算法对其进行补充。
2 标记-清除
上一小节提到,引用计数算法无法解决循环引用问题,循环引用的对象会导致大家的计数器永远都不会等于 0
,带来无法回收的问题。
标记-清除
算法主要用于潜在的循环引用问题,该算法分为2步:
标记阶段。将所有的对象看成图的节点,根据对象的引用关系构造图结构。从图的根节点遍历所有的对象,所有访问到的对象被打上标记,表明对象是“可达”的。
清除阶段。遍历所有对象,如果发现某个对象没有标记为“可达”,则就回收。
以具体代码示例说明:
class A():
def __init__(self):
self.obj = None
def func():
a = A()
b = A()
c = A()
d = A()
a.obj = b
b.obj = a
return [c, d]
e = func()
上面代码中,a和b相互引用,e引用了c和d。整个引用关系如下图所示
如果采用引用计数器算法,那么a和b两个对象将无法被回收。而采用标记清除法,从根节点(即e对象)开始遍历,c、d、e三个对象都会被标记为 可达
,而a和b无法被标记。因此a和b会被回收。
这是读者可能会有疑问,为什么确定根节点是e,而不会是a、b、c、d呢?这里就有讲究了,什么样的对象会被看成是根节点呢?一般而言,根节点的选取包括(但不限于)如下几种:
当前栈帧中的本地变量表中引用的对象,如各个线程被调用的方法堆栈中使用到的参数、 局部变量、 临时变量等。
全局静态变量
...
3 分代收集
3.1 分代收集原理
在执行垃圾回收过程中,程序会被暂停,即 stop-the-world
。这里很好理解:你妈妈在打扫房间的时候,肯定不允许你在房间内到处丢垃圾,要不然永远也无法打扫干净。
为了减少程序的暂停时间,采用 分代回收
( Generational Collection
)降低垃圾收集耗时。
分代回收基于这样的法则:
接大部分的对象生命周期短,大部分对象都是朝生夕灭。
经历越多次数的垃圾收集且活下来的对象,说明该对象越不可能是垃圾,应该越少去收集。
Python
中,对象一共有3种世代: G0
, G1
, G2
。
对象刚创建时为
G0
。如果在一轮
GC
扫描中存活下来,则移至G1
,处于G1
的对象被扫描次数会减少。如果再次在扫描中活下来,则进入
G2
,处于G1
的对象被扫描次数将会更少。
3.2 触发GC时机
当某世代中分配的对象数量与被释放的对象之差达到某个阈值的时,将触发对该代的扫描。当某世代触发扫描时,比该世代年轻的世代也会触发扫描。
那么这个阈值是多少呢?我们可以通过代码查看或者修改,示例代码如下
import gc
threshold = gc.get_threshold()
print("各世代的阈值:", threshold)
# 设置各世代阈值
# gc.set_threshold(threshold0[, threshold1[, threshold2]])
gc.set_threshold(800, 20, 20)
输出结果如下:
各世代的阈值: (700, 10, 10)
来源:https://blog.csdn.net/m0_72557783/article/details/125730729


猜你喜欢
- 我们经常会遇到这样的开发需求,比如你手头有多个开发项目,其中项目A要求用python3.7,项目B需要用python3.6,有要求项目A和项
- 即使页面上只有一个元素它也是一个矩形的盒模型。其大小、位置、行为都可以通过CSS来控制。这里的行为是指当盒模型内部以及周围的内容发生变化时的
- 最近的项目涉及到很多表单的制作,特别是复选框(checkbox)和单选框(radio)。但是在前端开发过程中发现,单(复)选框和它们后面的提
- 使用T_SQL创建数据库 TestSchool 创建一个学生表 TblStudent 创建学生成绩表 TblScore q tScoreId
- 前言一个Excel电子表格文档称为一个工作簿一个工作簿保存在一个扩展名为.xlsx的文件中一个工作簿可以包含多个表用户当前查看的
- hints是oracle提供的一种机制,用来告诉优化器按照我们的告诉它的方式生成执行计划。我们可以用hints来实现:  
- 懒加载是一种编程范式,它推迟加载操作,直到不得不这样做。通常,当操作开销很大,需要耗费大量时间或空间时,惰性求值是首选实现。例如,在 Pyt
- 运行vue项目报错 Module build failedModule build failed (from ./node_modules/
- numpy库是Python进行数据分析和矩阵运算的一个非常重要的库,可以说numpy让Python有了matlab的味道本文主要介绍几个nu
- 介绍RANGE分区基于一个给定的连续区间范围,早期版本RANGE主要是基于整数的分区。在5.7版本中DATE、DATETIME列也可以使用R
- 导读:由于banner一般用于专题类网站,在门户网站的二级页面,用户进来之前,在首页已经对主题有一定的了解和认识,所以banner的作用是在
- 本文实例讲述了php中fgetcsv()函数用法。分享给大家供大家参考。具体方法如下:fgetcsv是一个简单的生成excel文档的函数,从
- 本文实例讲述了JS实现json数组排序操作。分享给大家供大家参考,具体如下:有时需要根据json对象的某个属性排序json数组,javasc
- 问题描述当前环境win10,python_3.6.1,64位。在windows下,在dos中运行pip install Scrapy报错:b
- 本文实例讲述了JS实现求5的阶乘运算操作。分享给大家供大家参考,具体如下:方案一:利用while循环function factorial(n
- python中ftplib模块支持ftp操作,主要使用FTP类。本文使用ftp操作进行连接FTP服务器、获取当前目录文件清单、上传文件等操作
- 创建Dataframe主要是使用pandas中的DataFrame函数,其核心就是第一个参数:data,传入原始数据,因此我们可以据此给出六
- 删除vue下的node_modules文件夹全局安装rimrafcnpm i -g rimraf进入项目文件夹目录(该目录下包含node_m
- 本文记录了如何在Pytorch中使用Tensorboard(主要是为了备忘)前言虽然我本身就会用TensorBoard,但是因为Tensor
- 1.原生js操作domconst dom = getElementById(‘box')2.vue官方方法:refvue中的ref是