以下の説明からわかるように、セマンティック セグメンテーション用の画像には、入力とマスクの 2 種類があります。マスク イメージは、整数 (ROAD の場合は 0、TREE の場合は 1、ROAD の場合は (100,100,100)、TREE の場合は (0,255,0)) のピクセル値に「ラベル」を含むイメージです。
セマンティック セグメンテーションは、画像の各ピクセルをクラス ラベル(花、人、道路、空、海、車など) に関連付けるプロセスを表します。 https://se.mathworks.com/help/vision/ug/semantic-segmentation-basics.html
私の調査によると、セマンティック セグメンテーション用のラベル付き画像には多くの種類があります。さまざまな拡張子 (.png .jpg .gif .bmp...) に加えて、RGB ラベル (3 チャンネル) の画像とGRAY (1 チャンネル) の画像があります。以下に、この状況をよりよく説明するための 2 つの例を示します。
拡張子「.png」でラベル付けされた RGB
https://github.com/divamgupta/image-segmentation-keras#user-content-preparing-the-data-for-training
拡張子「.gif」でラベル付けされたグレースケール
画像が GRAY スケールとしてラベル付けされている場合、基本的に、この GRAY チャンネルの各値を 3 つの RGB チャンネルにコピーして RGB にします。逆に、RGB チャネルを平均化することで、ラベル付きの画像をグレースケールにすることができます。違いはなんですか?どのタスク (バイナリ セグメンテーションまたは sth else) に適しているのはどれですか?
私の場合、4 つのクラスがあり、マルチクラス セマンティック セグメンテーションを実行しようとしています。私はすでに DataTurks で約 600 枚の画像にラベルを付けました。つまり、オブジェクトのポリゴンがあれば、自分でラベル付きの画像を作成する必要があります。今のところ、入力画像とマスク画像の拡張子はそれぞれ「.jpg」と「.png」です。拡張子と一緒に画像にどのようにラベルを付ける必要がありますか?