序数の特徴については、ラベルのエンコーディングを使用するのが理にかなっています。ただし、カテゴリ機能については、1 つのホット エンコーディングを使用します。ただし、これらは入力機能の規則です。しかし、出力ラベルがカテゴリーである場合、出力変数に対して 1 つのホット エンコーディングを使用する必要がありますか? または、ラベルのエンコーディングも使用できますか? どちらが好ましいですか?
120 クラスの果物分類器をトレーニングしています。ImageNet で事前トレーニングされた ResNet50 モデルを特徴抽出器として使用しており、これらの機能を使用してロジスティック回帰分類器 (転移学習) をトレーニングしています。120 個のクラスがあるため、ラベル エンコーディングの場合、ラベルの範囲は 0 から 119 になります。ラベル エンコーディングを維持したままモデルをトレーニングしても問題ありませんか? 私がこれを求めているのは、次の sklearn のドキュメントで許可されているためです。
sklearn.preprocessing.LabelEncoder
ここで彼らは言っています:
...「このトランスフォーマーは、入力 X ではなく、ターゲット値、つまり y をエンコードするために使用する必要があります。」
しかし、ラベル エンコーディングでは、出力変数のそれぞれが、1 つのホット エンコーディングを使用した場合と同じ優先度を得られないため、なぜそうしてもよいのか混乱しています。