位置：首页>> 网络编程>> Python编程>> TFRecord文件查看包含的所有Features代码

TFRecord文件查看包含的所有Features代码

作者：zhanht　　发布时间：2023-07-26 15:45:08　

标签：TFRecord,Features

TFRecord作为tensorflow中广泛使用的数据格式，它跨平台，省空间，效率高。因为 Tensorflow开发者众多，统一训练时数据的文件格式是一件很有意义的事情，也有助于降低学习成本和迁移成本。

但是TFRecord数据是二进制格式，没法直接查看。因此，如何能够方便的查看TFRecord格式和数据，就显得尤为重要了。

为什么需要查看TFReocrd数据？首先我们先看下常规的写入和读取TFRecord数据的关键过程。

# 1. 写入过程
# 一张图片，我写入了其内容，label，长和宽几个信息
tf_example = tf.train.Example(
features=tf.train.Features(feature={
'encoded': bytes_feature(encoded_jpg),
'label': int64_feature(label),
'height': int64_feature(height),
'width': int64_feature(width)}))
# 2. 读取过程
# 定 * 析的TFRecord数据格式
def _parse_image(example_proto):
features = {'encoded':tf.FixedLenFeature((),tf.string),
'label': tf.FixedLenFeature((), tf.int64),
'height': tf.FixedLenFeature((), tf.int64),
'width': tf.FixedLenFeature((), tf.int64)
}
return tf.parse_single_example(example_proto, features)

# TFRecord数据按照Feature解析出对应的真实数据
ds = ds.map(lambda x : _parse_image(x), num_parallel_calls=4)

上面是一个标准的TFRecord数据的写入和读取部分过程，大家应该发现了，读取TFRecord数据的时候，得知道TFRecord数据保存的属性名和类型，任何一项不匹配，都会导致无法获取数据。

如果数据的写入和读取都是自己一个人完成，那就没问题。但是如果写入和读取是跨团队合作时候，如果每次读取数据都得让对方给完整的属性名和属性类型，那效率就太低了。毕竟TFRecord数据已经包含了一切，自己动手丰衣足食。

那么怎么查看TFRecord数据呢？使用python tf.train.Example.FromString(serialized_example)方法，方法的入参是TFRecord包含的数据字符串。

然后，我直接将上诉查看的过程写成了一个py脚本，需要自取。

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys
import tensorflow as tf

# 用法：python trackTFRecord.py True file1 file2
# trackTFRecord.py 就是当前这个py文件
# True 表示是否输出具体的数据
# file1 file2 表示的是需要查看的TFRecord文件的绝对路径
# 输出说明：tf.float32对应TFRecord的FloatList，tf.int64对应Int64List，tf.string对应BytesList
def main():
print('TFRecord文件个数为{0}个'.format(len(sys.argv)-2))
for i in range(2, len(sys.argv)):
filepath = sys.argv[i]
with tf.Session() as sess:
filenames = [filepath]
# 加载TFRecord数据
ds = tf.data.TFRecordDataset(filenames)
ds = ds.batch(10)
ds = ds.prefetch(buffer_size=tf.contrib.data.AUTOTUNE)
iterator = ds.make_one_shot_iterator()
# 为了加快速度，仅仅简单拿一组数据看下结构
batch_data = iterator.get_next()
res = sess.run(batch_data)
serialized_example = res[0]
example_proto = tf.train.Example.FromString(serialized_example)
features = example_proto.features
print('{0} 信息如下：'.format(filepath))
for key in features.feature:
feature = features.feature[key]
ftype = None
fvalue = None
if len(feature.bytes_list.value) > 0:
ftype = 'bytes_list'
fvalue = feature.bytes_list.value

if len(feature.float_list.value) > 0:
ftype = 'float_list'
fvalue = feature.float_list.value

if len(feature.int64_list.value) > 0:
ftype = 'int64_list'
fvalue = feature.int64_list.value

result = '{0} : {1}'.format(key, ftype)
if 'True' == sys.argv[1]:
result = '{0} : {1}'.format(result, fvalue)
print(result)

if __name__ == "__main__":
main()

下面给大家实例演示，首先先随便找个图片，写入到TFRecord数据

import tensorflow as tf

filename = "/Users/zhanhaitao/Desktop/1.png"
# 使用tf.read_file读进图片数据
image = tf.read_file(filename)
# 主要是为了获取图片的宽高
image_jpeg = tf.image.decode_jpeg(image, channels=3, name="decode_jpeg_picture")
# reshape图片到原始大小2500x2000x3
image_jpeg = tf.reshape(image_jpeg, shape=(2500,2000,3))
# 获取图片shape数据
img_shape = image_jpeg.shape
width = img_shape[0]
height = img_shape[1]
# 将原图片tensor生成bytes对象， image将保存到tfrecord
sess = tf.Session()
image = sess.run(image)
sess.close()
# 定义TFRecords文件的保存路径及其文件名
path_none = "/Users/zhanhaitao/Desktop/a.tfrecord"
# 定义不同压缩选项的TFRecordWriter
writer_none = tf.python_io.TFRecordWriter(path_none, options=None)
# 将外层features生成特定格式的example
example_none = tf.train.Example(features=tf.train.Features(feature={
"float_val":tf.train.Feature(float_list=tf.train.FloatList(value=[9.99])),
"width":tf.train.Feature(int64_list=tf.train.Int64List(value=[width])),
"height":tf.train.Feature(int64_list=tf.train.Int64List(value=[height])),
"image_raw":tf.train.Feature(bytes_list=tf.train.BytesList(value=[image]))
}))
# example系列化字符串
example_str_none = example_none.SerializeToString()
# 将系列化字符串写入协议缓冲区
writer_none.write(example_str_none)

# 关闭TFRecords文件操作接口
writer_none.close()

print("finish to write data to tfrecord file!")

然后，使用上面的脚本看下这个TFRecord数据定义了哪些属性，以及对应的格式，先进入到脚本的目录下，因为图像数据内容太大，影响阅读，就只看属性名和type了：

python trackTFRecord.py False /Users/zhanhaitao/Desktop/a.tfrecord
# 结果，其中bytes_list对应tf.string，int64_list对应tf.int64 float_list对应tf.float32
# image_raw : bytes_list
# width : int64_list
# float_val : float_list
# height : int64_list

来源：https://blog.csdn.net/zhanht/article/details/100177528

0

投稿

猜你喜欢

MySQL语句优化的原则
1、使用索引来更快地遍历表。缺省情况下建立的索引是非群集索引，但有时它并不是最佳的。在非群集索引下，数据在物理上随机存放在数据页上。合理的索
详解利用上下文管理器扩展Python计时器
上文中，我们一起学习了手把手教你实现一个 Python 计时器。本文中，云朵君将和大家一起了解什么是上下文管理器和 Python
mysql 左连接、右连接和内连接
脚本如下： drop table table1; CREATE TABLE `andrew`.`table1` ( `name` VARCH
python中SSH远程登录设备的实现方法
python中支持SSH协议的模块主要有Paramiko和netmiko两种，本次实验采用netmiko模块。netmikko模块为pyth
python函数的重新定义及练习
python函数一、函数定义函数是组织好的，可重复使用的，用来实现单一，或相关联功能的代码段。函数能提高应用的模块性，和代码的重复利用率。你
Mysql视图和触发器使用过程
视图视图是什么，是否真实存在?个人理解：视图视图，只是你可以看见的一层抽象层, 它并不真实存在, 而是在真实存在的一张或者多张表之上的一层
详解python脚本自动生成需要文件实例代码
python脚本自动生成需要文件在工作中我们经常需要通过一个文件写出另外一个文件，然而既然是对应关系肯定可以总结规律让计算机帮我们完成，今天
浅谈Scrapy网络爬虫框架的工作原理和数据采集
今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。1、Scrapy爬虫框架Scrapy是一个使用Python编程语言
Vue.js 2.5新特性介绍(推荐)
TypeScriptTypeScript是一种由微软开发的自由和开源的编程语言。它是JavaScript的一个超集，而且本质上向这个语言添加
php7性能提升的原因详解
为什么PHP7的性能可以提高这么多？1. JIT 2. Zval的改变 3. 内部类型zend_string 4. PHP数组的变化（Has
Python socket实现多对多全双工通信的方法
服务器：#server.py#!/usr/bin/env python#-*-coding:utf-8-*-import sysimport
Python实现求解括号匹配问题的方法
本文实例讲述了Python实现求解括号匹配问题的方法。分享给大家供大家参考，具体如下：这个在本科学习数据结构的时候已经接触很多了，主流的思想
关于Python的Thread线程模块详解
Python线程与进程进程：进程是程序的一次执行，每个进程都有自己的地址空间、内存、数据栈以及其他记录其运行的辅助数据。线程：所有的线程运行
python lambda函数及三个常用的高阶函数
进行编程时，一般我们会给一个函数或者变量起一个名字，该名称是用于引用或寻址函数变量。但是有一个低调的函数，你不需要赋予它名字，因此该函数也叫
使用pyecharts在jupyter notebook上绘图
我就废话不多说啦，还是直接看代码吧！ from example.commons import Faker from pyecharts im
pytorch 图像预处理之减去均值,除以方差的实例
如下所示：#coding=gbk'''GPU上面的环境变化太复杂，这里我直接给出在笔记本CPU上面的运行时间结果由于
SQL Server 常用函数使用方法小结
之前就想要把一些 SQL 的常用函数记录下来，不过一直没有实行。。。嘿嘿。。。直到今天用到substring()这个函数，C# 里面这个方法
Pandas之groupby( )用法笔记小结
groupby官方解释DataFrame.groupby(by=None, axis=0, level=None, as_index=Tru
python子类如何继承父类的实例变量
类型1：父类和子类的实例变量均不需要传递class A(object): def __init__(self):
简单代码屏蔽超级链接虚线框
网页离不开链接，而默认链接的表现形式总是千篇一律的蓝色文字加底线，每当我们点击它时，周围会出现虚线框，表示该链接是当前的焦点，影

python怎样判断一个数值(字符串)为整数

pycharm中如何使用快捷键按出代码提示框

numpy array找出符合条件的数并赋值的示例代码

python Django的显示个人信息详解

Python Django基础二之URL路由系统

Python按键或值对字典进行排序

Python编程基础之类和对象

Python 流媒体播放器的实现(基于VLC)

Python Gitlab Api 使用方法

利用Pandas索引和选取数据方法详解

Word修改页码后怎么同步后面页码

狂野飙车9雪佛兰好开吗？D车Camaro-LT性能属性一览

三国志战棋版张飞怎么玩

浅谈Android硬件加速原理与实现简介

地下城割草亡灵之书怎么进化合成

崩坏3樱桃炸弹鬼魂玛丽皮肤如何获得？樱桃炸弹鬼魂玛丽皮肤获取方法

跑跑卡丁车尖峰地狱火什么时候上线？

Word怎么设置后台打印

Mac系统Finder文件夹怎么更换背景?

斗鱼云游戏启动不了怎么办-斗鱼云游戏启动不了解决方法

手机版 网络编程 asp之家 www.aspxhome.com