TensorFlow实现模型断点训练,checkpoint模型载入方式
作者:Sesen_s 发布时间:2022-01-19 22:32:12
标签:TensorFlow,断点,checkpoint,载入
深度学习中,模型训练一般都需要很长的时间,由于很多原因,导致模型中断训练,下面介绍继续断点训练的方法。
方法一:载入模型时,不必指定迭代次数,一般默认最新
# 保存模型
saver = tf.train.Saver(max_to_keep=1) # 最多保留最新的模型
# 开启会话
with tf.Session() as sess:
# saver.restore(sess, './log/' + "model_savemodel.cpkt-" + str(20000))
sess.run(tf.global_variables_initializer())
ckpt = tf.train.get_checkpoint_state('./log/') # 注意此处是checkpoint存在的目录,千万不要写成‘./log'
if ckpt and ckpt.model_checkpoint_path:
saver.restore(sess,ckpt.model_checkpoint_path) # 自动恢复model_checkpoint_path保存模型一般是最新
print("Model restored...")
else:
print('No Model')
方法二:载入时,指定想要载入模型的迭代次数
需要到Log文件夹中,查看当前迭代的次数,如下:此时为111000次。
# 保存模型
saver = tf.train.Saver(max_to_keep=1)
# 开启会话
with tf.Session() as sess:
saver.restore(sess, './log/' + "model_savemodel.cpkt-" + str(111000))
sess.run(tf.global_variables_initializer())
载入模型后,会继续端点处的变量继续训练,那么是否可以减小剩余的需要的迭代次数?
模型断点训练效果展示:
训练到167000次后,载入模型重新训练。设置迭代次数为10000次,(d_step=1000)。原始设置的迭代的次数为1000000,已经训练了167000次。
Model restored...
Iter:0, D_loss:0.5139875411987305, G_loss:2.8023970127105713
Iter:1000, D_loss:0.4400891065597534, G_loss:2.781547784805298
Iter:2000, D_loss:0.5169454216957092, G_loss:2.58009934425354
Iter:3000, D_loss:0.4507023096084595, G_loss:2.584151268005371
Iter:4000, D_loss:0.5746167898178101, G_loss:2.5365757942199707
Iter:5000, D_loss:0.5288565158843994, G_loss:2.426676034927368
Iter:6000, D_loss:0.549595057964325, G_loss:2.820535659790039
Iter:7000, D_loss:0.32620012760162354, G_loss:2.540236473083496
Iter:8000, D_loss:0.4363398551940918, G_loss:2.5880446434020996
Iter:9000, D_loss:0.569464921951294, G_loss:2.5133447647094727
done!
保存的图片仍然从头开始编号,会覆盖掉之前的图片。
以前对应编号的采样图片为:
若有朋友有高见,还请不吝赐教。
补充知识:tensorflow加载训练好的模型及参数(读取checkpoint)
checkpoint 保存路径
model_path下存有包含多个迭代次数的模型
1.获取最新保存的模型
即上图中的model-9400
import tensorflow as tf
graph=tf.get_default_graph() # 获取当前图
sess=tf.Session()
sess.run(tf.global_variables_initializer())
checkpoint_file=tf.train.latest_checkpoint(model_path)
saver = tf.train.import_meta_graph("{}.meta".format(checkpoint_file))
saver.restore(sess,checkpoint_file)
2.获取某个迭代次数的模型
比如上图中的model-9200
import tensorflow as tf
graph=tf.get_default_graph() # 获取当前图
sess=tf.Session()
sess.run(tf.global_variables_initializer())
checkpoint_file=os.path.join(model_path,'model-9200')
saver = tf.train.import_meta_graph("{}.meta".format(checkpoint_file))
saver.restore(sess,checkpoint_file)
获取变量值
## 得到当前图中所有变量的名称
tensor_name_list=[tensor.name for tensor in graph.as_graph_def().node]
# 查看所有变量
print(tensor_name_list)
# 获取input_x和input_y的变量值
input_x = graph.get_operation_by_name("input_x").outputs[0]
input_y = graph.get_operation_by_name("input_y").outputs[0]
来源:https://blog.csdn.net/weixin_40546602/article/details/81410251
0
投稿
猜你喜欢
- 一个已知管用的方法是,使用session_set_save_handler,接管所有的session管理工作,一般是把session信息存储
- 一、go语言内存布局想象一下,你有一个如下的结构体。type MyData struct {
- 获取Tensor的维数>>> import tensorflow as tf>>> tf.__versi
- 前言自 MySQL5.1.6起,增加了一个非常有特色的功能–事件调度器(Event Scheduler),可以用做定时执行某些特定任务(例如
- 才发现做了这么多的博客和视频,居然从来没有系统地做过分类网络,做一个科学的分类网络,对身体好。源码下载分类网络的常见形式常见的分类网络都可以
- 本文实例讲述了Go语言实现选择法排序的方法。分享给大家供大家参考。具体实现方法如下:package mainimport "fmt
- 本文实例讲述了C#编程实现连接ACCESS数据库的方法。分享给大家供大家参考,具体如下:一、建立FORM窗体,加一个按钮控件,加一个DATA
- 前言由于Django是 * 站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单解决方式是使用:缓存,缓存
- 如下所示:package mainimport ( "fmt" "os/exec" "ti
- 一、下载MySQL http://www.mysql.org/downloads我下载的是mysql-noinstall-5.0.67-wi
- 概述传入条件的不同,会执行不同的语句每一个case分支都是唯一的,从上到下逐一测试,直到匹配为止。语法第一种【switch 带上表达式】sw
- 一、js--->单线程 严格意义上来说,javascript没有多线程的概念,所有的程序都是单线程依次执行的。1、什么是单线
- 本文实例讲述了Go语言实现AzDG可逆加密算法。分享给大家供大家参考。具体实现方法如下:package mainimport (
- Git是一个开源的分布式版本控制软件,用以有效、高速的处理从很小到非常大的项目版本管理。Git 最初是由Linus Torvalds设计开发
- 学习了一点opencv的知识于是找了个小项目来实践一下。这里先说明一下,我的实现方法不见得是最好的(因为这只是一个用于练习的项目)仅作参考,
- OAuth2 的概念OAuth是一个关于授权的开放网络标准,OAuth2是其2.0版本。它规定了四种操作流程(授权模式)来确保安全应用场景有
- 1. show variables like '%profiling%';(查看profiling信息) &nbs
- 有这样一张表,表数据及结果如下:school_idschool_nametotal_studenttest_takers1239Abraha
- IE(internet explorer)公司:微软(MicroSoft)布局引擎:Trident(也做MSHTML)注:解析渲染
- vue中代码的复用, 为我们提供了 mixnis. 模板的复用, 为我们提供了 插槽( slot )插槽的分类默认插槽具名插槽作用域插槽当我