sk-learn でラベル エンコーディングの不明な値を処理するにはどうすればよいですか? ラベル エンコーダーは、新しいラベルが検出された場合を除いて爆発します。
私が欲しいのは、ワンホットエンコーダーによるカテゴリ変数のエンコードです。ただし、sk-learn はそのための文字列をサポートしていません。そこで、各列にラベル エンコーダーを使用しました。
私の問題は、パイプラインの交差検証ステップで不明なラベルが表示されることです。基本的なワンホット エンコーダーには、そのようなケースを無視するオプションがあります。pandas.getDummies /cat.codes
パイプラインは、未知のラベルを含む可能性のある実際の新しい着信データでも機能する必要があるため、アプリオリでは不十分です。
CountVectorizer
この目的で a を使用することは可能でしょうか?