問題タブ [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - パンダ: ダミーを入手
次のデータフレームがあります。
column の値に対してダミー変数を作成したいと思いますtype
。約15あります。私はこれを試しました:
pd.get_dummies(df['type'])
そして、これを返します:
私が望むのは、一意の値ごとにダミー変数列を用意することですType
r - lm回帰と大きなリストの多くの変数
私の仕事は、ダミー変数でいくつかの調査を行うことです。Rコードは次のとおりです。
そして問題は、最後の行で次のようになることです。
koeficientai1
問題はリストが大きいことだと思います。しかし、その後、変数を 5 つだけ使用して別の lm 回帰を試みています。コードは機能しており、単純なデータ フレームが得られます。
r - ゼロ膨張モデルを使用してすべての因子水準の SE を推定する
私はかなり複雑な ZINB モデルを持っています。私がやろうとしていることの基本的な構造を複製しようとしました:
このモデルの主な目的は、fac1 の効果を 4 つのレベルにわたって調べることです。他の変数は、サンプリング プロセスの単なるアーティファクトです。
出力は次のとおりです。
論文や統計書、フォーラムを参照しましたが、この情報をどのように提示すればよいかまだわかりません。私が本当に欲しいのは、Y 軸の効果と X 軸の 4 つのレベルを示す棒グラフです。
私の理解が正しければ、fac1 のレベル A は現在 0 に設定されており、私の参考レベルです (ここで間違っていたら訂正してください)。したがって、4 つのレベル (レベル A をゼロとして含む) のプロットを作成できます。これは理想的ではないようです。すべてのレベルで 95%CI を取得したいと考えています。
予測関数も使用できますが、predict.zeroinfl では推定誤差が得られず、オフセットの影響を解釈する方法がわかりません。
同様の論文では、元のデータの箱ひげ図を予測の箱ひげ図の隣に置いて比較しています。もっとうまくやれるといいなと思います。
以下は、予測値を作成するためのコードとプロットです。
ブートストラップは進むべき道ですか?私はこれを試してみましたが、必要かどうかわからないためにあらゆる種類の問題に遭遇しました。
前もって感謝します。ばかげた見落とし/仮定をしている場合は、ご容赦ください。私はまだ学んでいますが、これらの統計は私の手の届かないところにあると感じています.
python - get_dummies (Pandas) と OneHotEncoder (Scikit-learn) の長所と短所は何ですか?
機械学習分類子のカテゴリ変数を数値に変換するさまざまな方法を学んでいます。pd.get_dummies
私はこの方法に出くわし、sklearn.preprocessing.OneHotEncoder()
パフォーマンスと使用法に関してそれらがどのように異なるかを見たいと思いました.
https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/で使用方法OneHotEncoder()
に関するチュートリアルを見つけましたこの機能については、ドキュメントはあまり役に立ちませんでした。やり方が間違っている気がしますが…sklearn
pd.dummies
overの使用sklearn.preprocessing.OneHotEncoder()
とその逆の長所と短所を説明できる人はいますか? OneHotEncoder()
疎行列が得られることは知っていますが、それ以外は、それがどのように使用され、どのような利点があるのか わかりませんpandas
。私はそれを非効率的に使用していますか?