Tensorflow 实现分批量读取数据
作者:freedom098 发布时间:2023-09-23 23:04:44
之前的博客里使用tf读取数据都是每次fetch一条记录,实际上大部分时候需要fetch到一个batch的小批量数据,在tf中这一操作的明显变化就是tensor的rank发生了变化,我目前使用的人脸数据集是灰度图像,因此大小是92*112的,所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor,大小是92*112的(如果考虑通道,也可以reshape为rank为3的,即92*112*1)。
如果加入batch,比如batch大小为5,那么拿到的tensor的rank就变成了3,大小为5*92*112。
下面规则化的写一下读取数据的一般流程,按照官网的实例,一般把读取数据拆分成两个大部分,一个是函数专门负责读取数据和解码数据,一个函数则负责生产batch。
import tensorflow as tf
def read_data(fileNameQue):
reader = tf.TFRecordReader()
key, value = reader.read(fileNameQue)
features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
'img': tf.FixedLenFeature([], tf.string),})
img = tf.decode_raw(features["img"], tf.uint8)
img = tf.reshape(img, [92,112]) # 恢复图像原始大小
label = tf.cast(features["label"], tf.int32)
return img, label
def batch_input(filename, batchSize):
fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
img, label = read_data(fileNameQue) # fetch图像和label
min_after_dequeue = 1000
capacity = min_after_dequeue+3*batchSize
# 预取图像和label并随机打乱,组成batch,此时tensor rank发生了变化,多了一个batch大小的维度
exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
min_after_dequeue=min_after_dequeue)
return exampleBatch,labelBatch
if __name__ == "__main__":
init = tf.initialize_all_variables()
exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)
with tf.Session() as sess:
sess.run(init)
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(coord=coord)
for i in range(100):
example, label = sess.run([exampleBatch, labelBatch])
print(example.shape)
coord.request_stop()
coord.join(threads)
读取数据和解码数据与之前基本相同,针对不同格式数据集使用不同阅读器和解码器即可,后面是产生batch,核心是tf.train.shuffle_batch这个函数,它相当于一个蓄水池的功能,第一个参数代表蓄水池的入水口,也就是逐个读取到的记录,batch_size自然就是batch的大小了,capacity是蓄水池的容量,表示能容纳多少个样本,min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小,显然,capacity要大于min_after_dequeue,官网推荐:min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads,表示所用线程数目。
min_after_dequeue这个值越大,随机采样的效果越好,但是消耗的内存也越大。
来源:https://blog.csdn.net/freedom098/article/details/56013625


猜你喜欢
- 为什么使用虚拟环境因为直接在真实环境进行安装python的包会造成环境之间的污染,因此需要创建虚拟环境,原则上每一个项目都需要有一个独属于自
- 以下的文章主要向大家介绍的是实现MySQL远程访问的实际操作流程,以及在实现MySQL远程访问的过程中哪些的相关事项是十分重要的,以下就是文
- JetBrainsMono 是 JetBrains 公司开发的一款开源字体,可免费商用。正如其名字带的Mono,即Monospaced Fo
- 本文是小编日常收集整理些js经典实例,特此分享供大家参考!跨浏览器添加事件//跨浏览器添加事件function addEvent(obj,t
- ASP从发布至今已经7年了,使用ASP技术已经相当成熟,自从微软推出了ASP.NET之后就逐渐停止了对ASP版本的更新。但是由于有很多人仍然
- 本文实例为大家分享了vue+elementUI实现动态面包屑的具体代码,供大家参考,具体内容如下引言后台管理系统中,经常会出现需要面包屑的情
- <html> <head> <title>Untitled Document</title>
- 如果你在文件夹里有很多视频,并且文件夹里还有文件夹,文件夹里的文件夹也有视频,怎么能逐个读取并且保存。。所以我写了个代码用了os,walk,
- 本文实例讲述了ES6 Promise对象的应用。分享给大家供大家参考,具体如下:The Promise object represents
- 代码如下:<title>雷锋|优酷-专辑 采集程序</title></head> &
- 1、mysql的limit关键字 (DAO)select * from tablename limit startPoint, number
- python格式化字符串有%和{}两种 字符串格式控制符.字符串输入数据格式类型(%格式操作符号)%%百分号标记#就是输出一个%%c字符及其
- '================================================ '
- 最近在一个python工具中需要实现串口自动触发工作的功能,之前只在winform上面实现,今天使用python试试。这里简单记一下:首先用
- 需求:用的是django的框架,想显示一个基本固定的页面,用到了form_layout上图的ROW中添加的是model中的字段名,可以显示对
- 在数据处理与分析领域,对数值型与字符型类别变量加以编码是不可或缺的预处理操作;这里介绍两种不同的方法。1 OneHotEncoder首先导入
- os.path模块是os模块根据系统类型从另一个模块导入的,并非由os模块实现1、os.path.abspath(相对路径)-----返回对
- 本文实例讲述了Python socket连接中的粘包、精确传输问题。分享给大家供大家参考,具体如下:粘包:发生原因:当调用send的时候,数
- 如下所示:import osimport shutil#path of imgrpath = 'D:\\BaiduNetdiskDo
- 本文实例讲述了Python从MP3文件获取id3的方法。分享给大家供大家参考。具体如下:def getID3(filename): &nbs