r - ダミー変数を使用した Python の OLS - 最善の解決策は?

Question

Python で解決しようとしている問題があり、複数の解決策を見つけました (と思います) が、どれが最適かを理解しようとしています。このサービスを書き直す必要がないように、将来的に完全にサポートされるライブラリを選択したいと考えています。

カテゴリ変数と連続従属変数の両方を使用して、通常の多変量最小二乗回帰を実行したいと考えています。コードは Web サービスに統合されるため、Python で作成する必要があります。私はパンダをかなりフォローしてきましたが、一度も使用したことがないため、これは1つのアプローチのようです:

解決策 1. https://github.com/pydata/pandas/blob/master/examples/regressions.py

明らかに、numpy/scipy は理想的ですが、ダミー変数を使用する例を見つけることができません (誰か持っている人はいますか?)。これは見つけたのですが、

解決策 2. http://www.scipy.org/Cookbook/OLS

これはダミー変数をサポートするように変更できますが、他の誰かがすでに行っている場合はそうしたくありません + 分析のほとんどをオフラインで行っており、これらを使用できるため、数値を R と非常によく似たものにしたいと考えています。単体テストの結果。

上記の例 (2) では、技術的には rpy/rpy2 を使用できることがわかりますが、Web サービスにはさらに別のテクノロジ (R) が必要なため、最適ではありません。インターフェイスを使用することの良い点は、数値が R からの結果と同じになることです。

解決策3. http://www.scipy.org/Cookbook/OLS (ただし Rpy/Rpy2 を使用)

とにかく、これら 3 つのソリューションのうち、皆さんのアプローチがどのようなものであるかに興味があります。もし不足しているものがあれば……そして、Panda が本番 Web サービスで使い始めるのに十分なほど成熟している場合。ここで重要なことは、バグ修正のサポートやパッチの適用、または可能であれば何かをゼロから作成する必要がないということです。私は忙しすぎて、おそらく十分に賢くありません:)

ありがとう。

score 6 · Accepted Answer

多くの異なるモデルと結果の統計を提供する statsmodels を使用できます。

R のような数式インターフェイスを使用する場合は、いくつかの例を次に示します。対応するドキュメントを参照してください。

http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/contrasts.html http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/example_formulas.html

純粋なnumpyバージョンが必要な場合は、すべてをゼロから行う古い例を次に示します http://statsmodels.sourceforge.net/devel/examples/generated/example_ols.html#ols-with-dummy-variables

モデルは pandas と統合されており、従属変数と独立変数 (statsmodels 命名規則の endog と exog) のデータ構造として pandas DataFrame を使用できます。

r - ダミー変数を使用した Python の OLS - 最善の解決策は?

1 に答える 1

Related

Reference