4

ランダム フォレストを使用して分類問題を解いています。そのために、Python ライブラリ scikit-learn を使用することにしました。しかし、私はランダム フォレスト アルゴリズムとこのツールの両方を初めて使用します。私のデータには多くの因子変数が含まれています。私はそれをグーグルで検索し、線形回帰のように因子変数に数値を与えるのは正しくないことを発見しました。それは連続変数として扱われ、間違った結果をもたらすからです。しかし、scikit-learn で因子変数を処理する方法については何も見つかりませんでした。使用するオプションを教えてください。または、入手できるドキュメントを教えてください。

4

2 に答える 2

11

pandas データ フレームを使用している場合は、get_dummies 関数を使用して簡単にこれを実現できます。次に例を示します。

import pandas as pd

my_data = [['a','b'],['b','a'],['c','b'],['d','a'],['a','c']]
df = pd.DataFrame(my_data, columns = ['var1','var2'])
dummy_ranks = pd.get_dummies(df['var1'], prefix = 'var1_')
print dummy_ranks

   var1__a  var1__b  var1__c  var1__d
0        1        0        0        0
1        0        1        0        0
2        0        0        1        0
3        0        0        0        1
4        1        0        0        0

[5 rows x 4 columns]
于 2014-08-15T21:16:14.103 に答える
2

sklearn のOneHotEncoderを使用する必要があります。それが行うことは、カテゴリ整数機能の個別の値ごとに新しい変数を作成することです。

たとえば、var値を持つ変数がある場合[10, 25, 30]、3 つの新しい変数 (つまり、3 列の行列) が作成されます。基本的には、変数var_10、値、var_25および値をそれぞれ使用します。var_30[1, 0, 0][0, 1, 0][0, 0, 1]

于 2013-05-10T12:42:21.700 に答える