位置：首页>> 网络编程>> Python编程>> Pytorch DataLoader 变长数据处理方式

Pytorch DataLoader 变长数据处理方式

作者：HappyCtest　　发布时间：2022-08-06 23:07:50　

标签：Pytorch,DataLoader,变长数据

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。

现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。

解决方法是重写DataLoader的collate_fn，具体方法如下：

# 假如每一个样本为：
sample = {
# 一个句子中各个词的id
'token_list' : [5, 2, 4, 1, 9, 8],
# 结果y
'label' : 5,
}

# 重写collate_fn函数，其输入为一个batch的sample数据
def collate_fn(batch):
# 因为token_list是一个变长的数据，所以需要用一个list来装这个batch的token_list
token_lists = [item['token_list'] for item in batch]

# 每个label是一个int，我们把这个batch中的label也全取出来，重新组装
labels = [item['label'] for item in batch]
# 把labels转换成Tensor
labels = torch.Tensor(labels)
return {
'token_list': token_lists,
'label': labels,
}

# 在使用DataLoader加载数据时，注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法，可以保证DataLoader能Load出一个batch的数据，load出来的东西就是重写的collate_fn函数最后return出来的字典。

来源：https://blog.csdn.net/HappyCtest/article/details/88872651

0

投稿

猜你喜欢

ORACLE查询删除重复记录三种方法
比如现在有一人员表（表名：peosons）若想将姓名、身份证号、住址这三个字段完全相同的记录查询出来 select p1.* &
python的Crypto模块实现AES加密实例代码
本文主要探索的是python的Crypto模块实现AES加密，分享了具体实现代码，下面看看具体内容。学了使用Crypto模块的AES来加密文
如何设置mysql允许外网访问
mysql的root账户,我在连接时通常用的是localhost或127.0.0.1,公司的测试服务器上的mysql也是localhost所
PHPMailer发送HTML内容、带附件的邮件实例
PHPMailer是一个封装好的PHP邮件发送类，支持发送HTML内容的电子邮件，以及可以添加附件发送，并不像PHP本身mail()函数需要
使用Python操作FTP实现上传和下载的方法
搭建ftp服务器server端# -*- coding:utf-8 -*-from pyftpdlib.authorizers import
Python入门基本操作列表排序用法详解
列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现。列表的数据项可以是不同的类型，可以是字符串，可以是数字类型，甚至
Mysql 5.6 "隐式转换"导致的索引失效和数据不准确的问题
背景在一次进行SQl查询时，我试着对where条件中vachar类型的字段去掉单引号查询，这个时候发现这条本应该很快的语句竟然很慢。这个va
Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块)
使用Python过程中，经常需要对文件和目录进行操作。所有file类/os/os.path/shutil模块时每个Python程序员必须学习
利用Pandas索引和选取数据方法详解
我们将使用2019年全国新能源汽车的销量数据作为演示数据，数据保存在一个csv文件中，读者可以在GitHub仓库下载到 https://gi
简述MySql四种事务隔离级别
隔离级别：隔离性其实比想象的要复杂。在SQL标准中定义了四种隔离级别, 每一个事务中所做的修改,哪些在事务内和事务间是可见的,哪些是不可见
JavaScript实现计算圆周率到小数点后100位的方法示例
本文实例讲述了JavaScript实现计算圆周率到小数点后100位的方法。分享给大家供大家参考，具体如下：浮点数的有效数位是16位，我自己做
Vue 自定义指令实现一键 Copy功能
先看下效果图：指令是啥？按照惯例，先请出官方的解释：指令 (Directives) 是带有 v- 前缀的特殊特性。指令特性的值预期是单个 J
golang中的单引号转义问题
golang的单引号转义如题，golang中有时候需要将一个字符串中的单引号再转义一次，比如在两个单引号之间包含一个含有单引号的字符串的情形
手把手教你vscode配置golang开发环境的步骤
1.下载安装Golanghttps://golang.google.cn/dl/一路下一步即可2.下载安装Vscodehttps://vis
oracle SQL命令大全
delete 删除一张大表时空间不释放，非常慢是因为占用大量的系统资源，支持回退操作，空间还被这张表占用着。truncate table 表
PyCharm专业最新版2019.1安装步骤（含激活码）
Pycharm是一款很好用的python开发工具，开发Python爬虫和Python web方面都很不错这里我为大家提供了两种pycharm
解决pytorch-gpu 安装失败的记录
ubuntu18 系统上已经配置好gpu加速环境，安装pytorch-gpu 后出现以下问题：import torchx = torch.T
Python建造者模式案例运行原理解析
建造者模式的适用范围：想要创建一个由多个部分组成的对象，而且它的构成需要一步接一步的完成。只有当各个部分都完成了，这个对象才完整。建造者模式
简单了解python shutil模块原理及使用方法
shutil --High-level file operations 高级的文件操作模块os模块提供了对目录或者文件的新建/删除/查看文件
Go语言程序开发gRPC服务
前言gRPC 这项技术真是太棒了，接口约束严格，性能还高，在 k8s 和很多微服务框架中都有应用。作为一名程序员，学就对了。之前用 Pyth

通过python实现windows桌面截图代码实例

python中正则的使用指南

Python 实现打印单词的菱形字符图案

Python中使用pprint函数进行格式化输出的教程

根据DataFrame某一列的值来选择具体的某一行方法

python政策网字体反爬实例(附完整代码)

python3调用windows dos命令的例子

Python遍历指定文件及文件夹的方法

Python实现http接口自动化测试的示例代码

python发送邮件接收邮件示例分享

Win10屏幕刷新率怎么调 Win10系统监视器设置屏幕刷新率图文教程

天天象棋第187关通关攻略动态分享

wps如何设置表格对齐方式图解

摩尔庄园手游鲨鱼怎么获得

WPS表格怎样快速填写年龄

服务没有及时响应启动或控制请求的解决办法（含Win10、Win7）

Python标准库defaultdict模块使用示例

Django框架中间件(Middleware)用法实例分析

iPhone 里藏着好用的“词典”功能：帮你认识新单词

抖音收纳高手第2关讨厌虫子怎么玩

手机版 网络编程 asp之家 www.aspxhome.com