問題タブ [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
463 参照

scikit-learn - scikit Learnでラベルをエンコードするときに自然な順序を維持する方法

scikit-learn モジュールを使用して決定木分類器のモデルを適合させようとしています。5 つの機能があり、そのうちの 1 つは数値ではなくカテゴリです

私は ML を初めて使用し、データ フレームをモデルに供給する前にカテゴリ特徴をエンコードする必要があること、およびラベル エンコーディングワン ホット エンコーディングなどのエンコーディング バリアントがどのように存在するかについて読んでいます。

現在、ほとんどの文献によると、特徴の値を自然に並べ替えることができる場合、たとえば'Low'、'Normal'、'High' のように、ラベル エンコーディングを使用する必要があります。それ以外の場合は、 'Brazil'、'Congo'、'Czech Republic'など、意味的に意味のあるものがない場合に、モデルが値の間に誤解を招くような順序関係を確立しないように、1 つのホット エンコーディングを使用する必要があります。

つまり、コーディング戦略を選択する背後にあるロジックについて私が考えているところです。

scikit-learn でLabelEncoder値の自然な順序を維持するにはどうすればよいですか。次のようにエンコードするにはどうすればよいですか。

現在のやり方ではありません:

これはまったくできますか?それは実際にエンコーダーの仕事ですか?エンコーディングの前に別の場所で行う必要がありますか?

ありがとう

0 投票する
0 に答える
30 参照

python - 複数の値を持つラベル エンコード変数

私の変数は複数の成分で構成されています。それぞれは、コンマで区切られたさまざまな成分で構成されています。複数の値に One Hot Encoding (MultiLabelBinarizer()) を使用しましたが、データセットの次元が増加しました。

この状況に適切な方法はありますか?

私の変数は次のようになります。