線形回帰モデルをまとめようとしていますが、「車の色」などの数値ではなく、「エンジンサイズ」などの特徴があります。数値以外のケースでは、入力フィーチャとして追加するときにこれを表す方法がわかりません。これを行う唯一の方法は、各色を異なる値 (赤 = 1、青 = 2、緑 = 3...) で表すことですが、これは緑が "赤よりも良い」。
誰でも助けてもらえますか...私はこれをJavaで実装しているので、この言語で表現されたアルゴリズム、または言語に依存しないことを感謝します。
線形回帰モデルをまとめようとしていますが、「車の色」などの数値ではなく、「エンジンサイズ」などの特徴があります。数値以外のケースでは、入力フィーチャとして追加するときにこれを表す方法がわかりません。これを行う唯一の方法は、各色を異なる値 (赤 = 1、青 = 2、緑 = 3...) で表すことですが、これは緑が "赤よりも良い」。
誰でも助けてもらえますか...私はこれをJavaで実装しているので、この言語で表現されたアルゴリズム、または言語に依存しないことを感謝します。
これを行う 1 つの方法は、ダミー コーディングを使用することです。もう 1 つの手法はエフェクト コーディングです。
詳細については、この記事を参照してください。著者は、私がここでできることよりもよく説明していると思います。
回帰モデルにおけるカテゴリ変数のコーディング: Resmi Gupta によるダミーと効果のコーディング
このソリューションは、言語に依存しないカテゴリに分類されると思います;)
車の色をエンコードするには (車の色は赤、青、緑の 3 つの値しかとれないと想定しています)
次のようにエンコードできます。
Color Dummy_Var_One Dummy_Var_Two
Red 1 0
Blue 0 1
Green 0 0
上表Green
は参考値となります。あなたの場合、色が値を取る場合は、ダミー変数n
を含める必要があります。n-1
Java での実装はWekaフィルターのNominalToBinaryn
にありますが、これによりカテゴリの変数が作成されn
ます。