1

たとえば、U-Net でセマンティック セグメンテーションを行う場合、ラベル データをワンホット エンコードされたテンソルとして提供するのが一般的な方法のようです。別の SO の質問で、ユーザーは、これは通常カテゴリ値を表すラベルが原因であると指摘しました。それらを1つのレイヤー内のクラスラベルとして(グレースケール強度値として)ネットワークに供給すると、問題が発生します。

ただし、別のブログ投稿で、著者はラベルが

「[...] ピクセル強度がクラス ID [...] を表すグレースケール画像として [取得] されることがあります。 ...] 1 つのホット ベクター表現は、[グレースケール エンコーディング フォーマット] より多くのメモリを [使用] します。"

私のハードウェアは非常に限られているため、ラベルを n 層 (n はセグメント化するクラスの数) ではなく 1 層のグレースケール テンソルとしてエンコードすると、メモリ使用量が少なくなることを期待しています。ただし、ブログの著者は次のようにも述べています。

「使用する深層学習フレームワークが [グレースケール形式] のように、ラベル データをクラス ID として受け入れたとしても、そのデータは舞台裏でワンホット エンコーディングに変換されます。」

これは、結局のところ、メモリの節約にはならないということですか?

価値がある場合、データセットリーダーでこれを実装するにはどうすればよいですか? また、グレースケールのラベル付けが実際に実践されている実装にも遭遇していません。したがって、セマンティック セグメンテーションにグレースケール ラベルを使用している実装へのリンクにも感謝します!

私は PyTorch を使用しており、私のコードはこの実装に基づいていますが、セグメント化するクラスが 3 つあるという違いがあります。

提案/リンクは大歓迎です!

4

1 に答える 1

2

これにより、ラベル、グラウンド トゥルースをグレースケール イメージ (幅、高さ、1) として格納でき、より大きな形状の 3D テンソル (幅、高さ、n) としてではなく、ディスク メモリを節約できます。ただし、トレーニング プロセス中に、グレースケールのグラウンド トゥルース イメージを 3D テンソルに変換して、ネットワークをトレーニングできるようにする必要があります。そのため、プロセスの RAM コストを削減することはできません。

本当に RAM の使用量を減らす必要がある場合は、トレーニング バッチ サイズまたは画像サイズを減らすことができます。

于 2019-02-27T15:39:37.967 に答える