画像のタグ付けと注釈の問題に取り組んでいます。単に画像に複数のオブジェクトが含まれている場合があります。マルチラベル分類のために inception-v4 をトレーニングしたいと考えています。私のトレーニングデータは画像になり、オブジェクトが画像に存在する場合、長さのベクトルはクラスの数に等しく、各インデックスに1があります。たとえば、4 つのクラス (人、車、木、建物) があるとします。画像に人物と車が含まれている場合。次に、私のベクトルは(1、1、0、0)になります。
タグ付けとアノテーションの問題について inception-v4 をトレーニングするには、どのような変更を加える必要がありますか?
入力形式を変更し、inception-v4 アーキテクチャで損失関数を softmax から sigmoid_cross_entropy_with_logits に変更するだけでよいですか?
https://github.com/tensorflow/models/blob/master/slim/nets/inception_v4.py
前もって感謝します。