网络编程
位置:首页>> 网络编程>> Python编程>> 我对PyTorch dataloader里的shuffle=True的理解

我对PyTorch dataloader里的shuffle=True的理解

作者:Doodlera  发布时间:2022-04-15 19:22:48 

标签:PyTorch,dataloader,shuffle,True

对shuffle=True的理解:

之前不了解shuffle的实际效果,假设有数据a,b,c,d,不知道batch_size=2后打乱,具体是如下哪一种情况:

1.先按顺序取batch,对batch内打乱,即先取a,b,a,b进行打乱;

2.先打乱,再取batch。

证明是第二种


shuffle (bool, optional): set to ``True`` to have the data reshuffled
at every epoch (default: ``False``).
if shuffle:
   sampler = RandomSampler(dataset) #此时得到的是索引

补充:简单测试一下pytorch dataloader里的shuffle=True是如何工作的

看代码吧~


import sys
import torch
import random
import argparse
import numpy as np
import pandas as pd
import torch.nn as nn
from torch.nn import functional as F
from torch.optim import lr_scheduler
from torchvision import datasets, transforms
from torch.utils.data import TensorDataset, DataLoader, Dataset

class DealDataset(Dataset):
   def __init__(self):
       xy = np.loadtxt(open('./iris.csv','rb'), delimiter=',', dtype=np.float32)
       #data = pd.read_csv("iris.csv",header=None)
       #xy = data.values
       self.x_data = torch.from_numpy(xy[:, 0:-1])
       self.y_data = torch.from_numpy(xy[:, [-1]])
       self.len = xy.shape[0]

def __getitem__(self, index):
       return self.x_data[index], self.y_data[index]

def __len__(self):
       return self.len

dealDataset = DealDataset()
train_loader2 = DataLoader(dataset=dealDataset,
                         batch_size=2,
                         shuffle=True)
#print(dealDataset.x_data)
for i, data in enumerate(train_loader2):
   inputs, labels = data

#inputs, labels = Variable(inputs), Variable(labels)
   print(inputs)
   #print("epoch:", epoch, "的第" , i, "个inputs", inputs.data.size(), "labels", labels.data.size())

简易数据集

我对PyTorch dataloader里的shuffle=True的理解我对PyTorch dataloader里的shuffle=True的理解

shuffle之后的结果,每次都是随机打乱,然后分成大小为n的若干个mini-batch.

我对PyTorch dataloader里的shuffle=True的理解

来源:https://blog.csdn.net/qq_35248792/article/details/109510917

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com