0

多くの機能エンジニアリングには、オブジェクトの機能に対する get_dummies ステップがあります。たとえば、'M' と 'F' を含む性別の列を 2 つの列にダミー化し、それらをワンホット表現でラベル付けします。性別の列で「M」と「F」を直接 0 と 1 にしないのはなぜですか? ダミー手法は、分類モデルと回帰モデルの両方で、機械学習モデルにプラスの影響を与えますか? である場合、その理由は? ありがとう。

4

2 に答える 2

0

可能な値で機能をワンホットエンコードするには、 /値を持つ列Nのみが必要です。その通りです。バイナリ セックスは、単一のバイナリ機能でエンコードできます。N-101

Nの代わりに機能を使用してダミー コーディングを使用N-1しても、機械学習モデルのパフォーマンスが実際に向上するわけではなく、ANOVA などの一部の統計分析が複雑になります。

参照用にコントラストに関する patsy のドキュメントを参照してください。

于 2016-12-02T22:39:47.873 に答える