python - Pytorch でのセグメンテーションタスクのデータ拡張に torchvision.transforms を使用するには?

Question

PyTorch で実行されるデータ拡張について少し混乱しています。

セグメンテーションタスクを扱っているため、同じデータ拡張にデータとマスクが必要ですが、ランダムローテーションなどのランダムなものもあります。

Keras はrandom seed、次のコードに示すように、データとマスクが同じ操作を行うことを保証します。

    data_gen_args = dict(featurewise_center=True,
                         featurewise_std_normalization=True,
                         rotation_range=25,
                         horizontal_flip=True,
                         vertical_flip=True)


    image_datagen = ImageDataGenerator(**data_gen_args)
    mask_datagen = ImageDataGenerator(**data_gen_args)

    seed = 1
    image_generator = image_datagen.flow(train_data, seed=seed, batch_size=1)
    mask_generator = mask_datagen.flow(train_label, seed=seed, batch_size=1)

    train_generator = zip(image_generator, mask_generator)

Pytorch の公式ドキュメントに同様の記述が見つからなかったため、データとマスクを確実に同期処理できるようにする方法がわかりません。

Pytorch はそのような機能を提供しますが、カスタム Dataloader に適用したいと考えています。

例：</p>

def __getitem__(self, index):
    img = np.zeros((self.im_ht, self.im_wd, channel_size))
    mask = np.zeros((self.im_ht, self.im_wd, channel_size))

    temp_img = np.load(Image_path + '{:0>4}'.format(self.patient_index[index]) + '.npy')
    temp_label = np.load(Label_path + '{:0>4}'.format(self.patient_index[index]) + '.npy')

    for i in range(channel_size):
        img[:,:,i] = temp_img[self.count[index] + i]
        mask[:,:,i] = temp_label[self.count[index] + i]

    if self.transforms:
        img = np.uint8(img)
        mask = np.uint8(mask)
        img = self.transforms(img)
        mask = self.transforms(mask)

    return img, mask

この場合、img と mask は別々に変換されます。これは、ランダムな回転などの一部の操作がランダムであるため、マスクとイメージの対応が変更される可能性があるためです。つまり、イメージは回転している可能性がありますが、マスクは回転していません。

編集1

Augmentations.pyのメソッドを使用しましたが、エラーが発生しました:：</p>

Traceback (most recent call last):
  File "test_transform.py", line 87, in <module>
    for batch_idx, image, mask in enumerate(train_loader):
  File "/home/dirk/anaconda3/envs/pytorch/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 314, in __next__
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "/home/dirk/anaconda3/envs/pytorch/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 314, in <listcomp>
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "/home/dirk/anaconda3/envs/pytorch/lib/python3.6/site-packages/torch/utils/data/dataset.py", line 103, in __getitem__
    return self.dataset[self.indices[idx]]
  File "/home/dirk/home/data/dirk/segmentation_unet_pytorch/data.py", line 164, in __getitem__
    img, mask = self.transforms(img, mask)
  File "/home/dirk/home/data/dirk/segmentation_unet_pytorch/augmentations.py", line 17, in __call__
    img, mask = a(img, mask)
TypeError: __call__() takes 2 positional arguments but 3 were given

これは私のコードです__getitem__()：</p>

data_transforms = {
    'train': Compose([
        RandomHorizontallyFlip(),
        RandomRotate(degree=25),
        transforms.ToTensor()
    ]),
}

train_set = DatasetUnetForTestTransform(fold=args.fold, random_index=args.random_index,transforms=data_transforms['train'])

# __getitem__ in class DatasetUnetForTestTransform
def __getitem__(self, index):
    img = np.zeros((self.im_ht, self.im_wd, channel_size))
    mask = np.zeros((self.im_ht, self.im_wd, channel_size))
    temp_img = np.load(Label_path + '{:0>4}'.format(self.patient_index[index]) + '.npy')
    temp_label = np.load(Label_path + '{:0>4}'.format(self.patient_index[index]) + '.npy')
    temp_img, temp_label = crop_data_label_from_0(temp_img, temp_label)
    for i in range(channel_size):
        img[:,:,i] = temp_img[self.count[index] + i]
        mask[:,:,i] = temp_label[self.count[index] + i]

    if self.transforms:
        img = T.ToPILImage()(np.uint8(img))
        mask = T.ToPILImage()(np.uint8(mask))
        img, mask = self.transforms(img, mask)

    img = T.ToTensor()(img).copy()
    mask = T.ToTensor()(mask).copy()
    return img, mask

編集2

ToTensor の後、同じラベル間のサイコロが 1 ではなく 255 になることがわかりました。修正方法を教えてください。

# Dice computation
def DSC_computation(label, pred):
    pred_sum = pred.sum()
    label_sum = label.sum()
    inter_sum = np.logical_and(pred, label).sum()
    return 2 * float(inter_sum) / (pred_sum + label_sum)

問題を説明するためにさらにコードが必要かどうかお気軽にお尋ねください。

score 4 · Accepted Answer

入力パラメーターを必要とする変換にRandomCropはget_param、その特定の変換のパラメーターを返すメソッドがあります。これは、変換の機能インターフェイスを使用して、画像とマスクの両方に適用できます。

from torchvision import transforms
import torchvision.transforms.functional as F

i, j, h, w = transforms.RandomCrop.get_params(input, (100, 100))
input = F.crop(input, i, j, h, w)
target = F.crop(target, i, j, h, w)

ここで入手可能なサンプル: https://github.com/pytorch/vision/releases/tag/v0.2.0

VOC と COCO の完全な例はこちらから入手できます: https://github.com/pytorch/vision/blob/master/references/segmentation/transforms.py https://github.com/pytorch/vision/blob/master/references/セグメンテーション/train.py

エラーに関しては、

ToTensor()は、追加のマスク引数を処理するためにオーバーライドされていないため、に含めることはできませんdata_transforms。また、両方とも返品前に行います__getitem__。ToTensorimgmask

data_transforms = {
    'train': Compose([
        RandomHorizontallyFlip(),
        RandomRotate(degree=25),
        #transforms.ToTensor()  => remove this line
    ]),
}

python - Pytorch でのセグメンテーション タスクのデータ拡張に torchvision.transforms を使用するには?

編集1

編集2

3 に答える 3

Related

Reference

python - Pytorch でのセグメンテーションタスクのデータ拡張に torchvision.transforms を使用するには?