メモリが役立つ場合、R には factor と呼ばれるデータ型があり、DataFrame 内で使用すると、回帰設計行列の必要な列に自動的に展開できます。たとえば、True/False/Maybe 値を含む因子は次のように変換されます。
1 0 0
0 1 0
or
0 0 1
低レベルの回帰コードを使用するため。pandas ライブラリを使用して同様のことを達成する方法はありますか? Pandas 内にいくつかの回帰サポートがあることがわかりますが、独自のカスタマイズされた回帰ルーチンがあるため、異種データからの設計行列 (2 次元の numpy 配列または行列) の構築に非常に興味があります。 numpy オブジェクトの列と、それが派生した Pandas DataFrame です。
更新: これは、私が考えている種類の異種データを含むデータ マトリックスの例です (例は Pandas マニュアルからのものです)。
>>> df2 = DataFrame({'a' : ['one', 'one', 'two', 'three', 'two', 'one', 'six'],'b' : ['x', 'y', 'y', 'x', 'y', 'x', 'x'],'c' : np.random.randn(7)})
>>> df2
a b c
0 one x 0.000343
1 one y -0.055651
2 two y 0.249194
3 three x -1.486462
4 two y -0.406930
5 one x -0.223973
6 six x -0.189001
>>>
「a」列は 4 つの浮動小数点列に変換する必要があり (意味にもかかわらず、固有のアトムは 4 つしかありません)、「b」列は単一の浮動小数点列に変換でき、「c」列は次のように変換する必要があります。計画行列の変更されていない最終列になります。
ありがとう、
SetJmp