python - U-Net を単一層として使用するセマンティックセグメンテーションの入力ラベル

Question

たとえば、U-Net でセマンティックセグメンテーションを行う場合、ラベルデータをワンホットエンコードされたテンソルとして提供するのが一般的な方法のようです。別の SO の質問で、ユーザーは、これは通常カテゴリ値を表すラベルが原因であると指摘しました。それらを1つのレイヤー内のクラスラベルとして（グレースケール強度値として）ネットワークに供給すると、問題が発生します。

ただし、別のブログ投稿で、著者はラベルが

「[...] ピクセル強度がクラス ID [...] を表すグレースケール画像として [取得] されることがあります。 ...] 1 つのホットベクター表現は、[グレースケールエンコーディングフォーマット] より多くのメモリを [使用] します。"

私のハードウェアは非常に限られているため、ラベルを n 層 (n はセグメント化するクラスの数) ではなく 1 層のグレースケールテンソルとしてエンコードすると、メモリ使用量が少なくなることを期待しています。ただし、ブログの著者は次のようにも述べています。

「使用する深層学習フレームワークが [グレースケール形式] のように、ラベルデータをクラス ID として受け入れたとしても、そのデータは舞台裏でワンホットエンコーディングに変換されます。」

これは、結局のところ、メモリの節約にはならないということですか?

価値がある場合、データセットリーダーでこれを実装するにはどうすればよいですか? また、グレースケールのラベル付けが実際に実践されている実装にも遭遇していません。したがって、セマンティックセグメンテーションにグレースケールラベルを使用している実装へのリンクにも感謝します!

私は PyTorch を使用しており、私のコードはこの実装に基づいていますが、セグメント化するクラスが 3 つあるという違いがあります。

提案/リンクは大歓迎です!

score 2 · Accepted Answer

これにより、ラベル、グラウンドトゥルースをグレースケールイメージ (幅、高さ、1) として格納でき、より大きな形状の 3D テンソル (幅、高さ、n) としてではなく、ディスクメモリを節約できます。ただし、トレーニングプロセス中に、グレースケールのグラウンドトゥルースイメージを 3D テンソルに変換して、ネットワークをトレーニングできるようにする必要があります。そのため、プロセスの RAM コストを削減することはできません。

本当に RAM の使用量を減らす必要がある場合は、トレーニングバッチサイズまたは画像サイズを減らすことができます。

python - U-Net を単一層として使用するセマンティック セグメンテーションの入力ラベル

1 に答える 1

Related

Reference

python - U-Net を単一層として使用するセマンティックセグメンテーションの入力ラベル