Tensorflow分批量读取数据教程
作者:freedom098 发布时间:2023-04-15 20:02:05
之前的博客里使用tf读取数据都是每次fetch一条记录,实际上大部分时候需要fetch到一个batch的小批量数据,在tf中这一操作的明显变化就是tensor的rank发生了变化,我目前使用的人脸数据集是灰度图像,因此大小是92*112的,所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor,大小是92*112的(如果考虑通道,也可以reshape为rank为3的,即92*112*1)。如果加入batch,比如batch大小为5,那么拿到的tensor的rank就变成了3,大小为5*92*112。
下面规则化的写一下读取数据的一般流程,按照官网的实例,一般把读取数据拆分成两个大部分,一个是函数专门负责读取数据和解码数据,一个函数则负责生产batch。
import tensorflow as tf
def read_data(fileNameQue):
reader = tf.TFRecordReader()
key, value = reader.read(fileNameQue)
features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),
'img': tf.FixedLenFeature([], tf.string),})
img = tf.decode_raw(features["img"], tf.uint8)
img = tf.reshape(img, [92,112]) # 恢复图像原始大小
label = tf.cast(features["label"], tf.int32)
return img, label
def batch_input(filename, batchSize):
fileNameQue = tf.train.string_input_producer([filename], shuffle=True)
img, label = read_data(fileNameQue) # fetch图像和label
min_after_dequeue = 1000
capacity = min_after_dequeue+3*batchSize
# 预取图像和label并随机打乱,组成batch,此时tensor rank发生了变化,多了一个batch大小的维度
exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,
min_after_dequeue=min_after_dequeue)
return exampleBatch,labelBatch
if __name__ == "__main__":
init = tf.initialize_all_variables()
exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10)
with tf.Session() as sess:
sess.run(init)
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(coord=coord)
for i in range(100):
example, label = sess.run([exampleBatch, labelBatch])
print(example.shape)
coord.request_stop()
coord.join(threads)
读取数据和解码数据与之前基本相同,针对不同格式数据集使用不同阅读器和解码器即可,后面是产生batch,核心是tf.train.shuffle_batch这个函数,它相当于一个蓄水池的功能,第一个参数代表蓄水池的入水口,也就是逐个读取到的记录,batch_size自然就是batch的大小了,capacity是蓄水池的容量,表示能容纳多少个样本,min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小,显然,capacity要大于min_after_dequeue,官网推荐:min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads,表示所用线程数目。
min_after_dequeue这个值越大,随机采样的效果越好,但是消耗的内存也越大。
来源:https://blog.csdn.net/freedom098/article/details/56013625


猜你喜欢
- Zabbix没有报表导出的功能,于是通过编写脚本导出zabbix数据并发邮件。效果如下:下面是脚本,可根据自己的具体情况修改:#!/usr/
- 前言:接口自动化是指模拟程序接口层面的自动化,由于接口不易变更,维护成本更小,所以深受各大公司的喜爱。接口自动化包含2个部分,功能性的接口自
- 出差到了中国雅虎,这里的风格和淘宝很不一样。和雅虎一比,淘宝的办公环境就是个菜市场,闹哄哄,到处是人,在走道里狂奔乱窜,在每个会议室争得面红
- 官方说明链接:https://intellij-support.jetbrains.com/hc/en-us/community/posts
- 如下所示:将i前面加str(i)就可以了补充拓展:python 连接字符串和数字 python 连接字符串和数字的问题:首先要说的
- 前言观前提醒:因为是代码控制统计,所以操作每一个步骤都很重要,否则就会报错。操作步骤1.将在线编辑文档导入本地。为了方便代码处理,将导出的e
- 去腾讯招聘网的信息,这个小项目有人做过,本着一个新手学习的目的,所以自己也来做着玩玩,大家可以参考一下。这里使用的是调用cmdline命令来
- 引言:本人从小白自学python,为了测试基础学习效果,增加一定的促进,想通过参加全国计算机等级考试二级python来检验基础学习情况。在学
- 本文实例讲述了MySQL重定位数据目录的实现方法。分享给大家供大家参考。具体方法如下:MySQL允许重定位数据目录或其中的成员,这里就来介绍
- pycharm全局修改pycharm 全局改函数方法1ctrl shift r全局替换方法2点击函数,右键 Refactor Ch
- 本教程详细介绍在用户注册过程中如何去验证他们的email地址。工作流程上来讲,在用户注册一个新账户后会寄送一个确认信。直到用户按指示完成了邮
- 实例如下:<!DOCTYPE html><html><head><script src="
- 再之前同时安装 python 后 只需把环境变量PATH 里面改为PATH=C:\Python36-32\Scripts\;C:\Pytho
- 项目结构:源代码:# -*- coding: utf-8 -*-"""@date: 2022/01
- MySQL命令行导出数据库1,进入MySQL目录下的bin文件夹:cd MySQL中到bin文件夹的目录如我输入的命令行:cd C:\Pro
- ---在仓储管理中经常会碰到的一个问题 一、关于LIFO与FIFO的简单说明 ---FIFO: First in, First out.先进
- 通常,当我们在 Vue 中创建组件时,它们出现在我们期望的 DOM 结构中。但是,有时我们并不希望如此。一个很好的例子就是模态框&m
- 前言Go 数组的长度不可改变,在特定场景中这样的集合就不太适用,Go中提供了一种灵活,功能强悍的内置类型切片("动态数组"
- 本文实例为大家分享了Python3实现购物车功能的具体代码,供大家参考,具体内容如下购物车要求:1、启动程序后,输入用户名密码后,如果是第一
- 在开发中有些敏感接口,例如用户余额提现接口,需要考虑在并 * 况下接口是否会发生问题。如果用户将自己的多条提现请求同时发送到服务器,代码能否扛