5

線形回帰モデルをまとめようとしていますが、「車の色」などの数値ではなく、「エンジンサイズ」などの特徴があります。数値以外のケースでは、入力フィーチャとして追加するときにこれを表す方法がわかりません。これを行う唯一の方法は、各色を異なる値 (赤 = 1、青 = 2、緑 = 3...) で表すことですが、これは緑が "赤よりも良い」。

誰でも助けてもらえますか...私はこれをJavaで実装しているので、この言語で表現されたアルゴリズム、または言語に依存しないことを感謝します。

4

1 に答える 1

9

これを行う 1 つの方法は、ダミー コーディングを使用することです。もう 1 つの手法はエフェクト コーディングです。

詳細については、この記事を参照してください。著者は、私がここでできることよりもよく説明していると思います。

回帰モデルにおけるカテゴリ変数のコーディング: Resmi Gupta によるダミーと効果のコーディング

このソリューションは、言語に依存しないカテゴリに分類されると思います;)

車の色をエンコードするには (車の色は赤、青、緑の 3 つの値しかとれないと想定しています)

次のようにエンコードできます。

Color  Dummy_Var_One  Dummy_Var_Two

Red        1              0
Blue       0              1
Green      0              0 

上表Greenは参考値となります。あなたの場合、色が値を取る場合は、ダミー変数nを含める必要があります。n-1

Java での実装はWekaフィルターのNominalToBinarynにありますが、これによりカテゴリの変数が作成されnます。

于 2012-07-29T14:24:39.963 に答える