torch.utils.data の標準 DataLoader を使用します。データセット クラスを作成し、次のように DataLoader をビルドします。
train_dataset = LandmarksDataset(os.path.join(args.data, 'train'), train_transforms, split="train")
train_dataloader = data.DataLoader(train_dataset, batch_size=args.batch_size, num_workers=2,
pin_memory=True, shuffle=True, drop_last=True)
それは完璧に機能しますが、データセットは十分に大きく、300k の画像です。そのため、DataLoader を使用すると画像の読み込みに時間がかかります。したがって、デバッグ段階でこのような大きな DataLoader を構築するのは本当に悲惨なことです。私は自分の仮説をいくつかテストしたいだけで、すぐに実行したいのです! このためにデータセット全体をロードする必要はありません。
データセット全体にdataLoaderを構築せずに、データセットの小さな固定部分だけをロードする方法を見つけようとしていますか? 現時点では、私のアイデアはすべて、別のフォルダーを作成し、ここに画像の一部をコピーして、パイプラインを使用することです。しかし、Pytorch は十分に賢いので、大きなデータセットから画像の一部だけを読み込むための組み込みメソッドがいくつかあると思います。どうすればよいかアドバイスいただけますか?