問題タブ [dummy-variable]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
141 参照

pandas - sklean で使用されるカテゴリ変数の変換

pd.get_dummies 関数を使用して疎行列を作成しました。私が持っている行列は 7 億行 * 400 列ですが、他の人が解決している多くの問題に比べてそれほど大きくはないと思います。しかし、train、val、test セットへのスライスには永遠にかかることがあります。(ロジスティック回帰とランダムフォレストを使用して予測を行い、疎行列をサポートします。)sparseDataFrameを効率的にスライスする方法はありますか、または私が行っているプロセス全体について、とにかく改善する必要がありますか?

例を挙げると、

これは、カテゴリ変数をダミー変数に変換する前に私が持っている列のリストです:

これは、各列の一意の値の数です。

pd.get_dummies を使用した後、たとえば 300 以上の列があります。

そうしないとメモリエラーが発生するため、 pd.get_dummies(input_df, sparse=True) を設定します。しかし、このまばらな表現では、すべてが本当に遅くなります。

更新: train、val、および test に分割するには、6:2:2 の 3 つの部分にランダムに分割します

0 投票する
1 に答える
592 参照

r - カテゴリ変数を使用した要約統計量の解釈

この出力で、両方の因子が 0 の場合が切片であることがわかります。factor(V1)1 は V1=1 を意味し、factor(V2)1 は V2=1 を意味することがわかります。V1 = 1 だけの勾配を取得するには、5.1122 +(-0.4044) を追加します。ただし、この出力の p 値をどのように解釈するのか疑問に思っています。V1 = 1 だけの場合、p 値は 2.39e-12 + 0.376 ということですか? もしそうなら、私が実行するすべてのモデルは、すべての要因が 0 の場合にのみ有意です...

0 投票する
2 に答える
4281 参照

python - ダミー変数を作成し、scikit-learn を使用して集計する方法は?

パッケージ pandas を使えば簡単に実現できることはわかっているのですが、あまりにもまばらで大きい (170,000 x 5000) ため、最後に sklearn を使用して再度データを処理する必要があるため、 sklearnで行う方法。ワンホットエンコーダーを試しましたが、ダミーを「id」に関連付けるのに行き詰まりました。

アップデート:

今、私はここにいて、「id」が失われました。集計を行うにはどうすればよいですか?

0 投票する
1 に答える
386 参照

r - 平日を使用して変数をダミー変数に記録する

月曜日から始まる 1 から 7 までの各日付をリストする変数があります。これを平日と週末に変更し、それぞれ 0-1 でダミー変数を作成します。方法は知っていますが、コードの繰り返しに 6 AND 7 を含める方法がわかりません。

たとえば、次のように置きます。

上記の目的は、コードが 6 & 7 と表示されている場所を見つけて、それを 1 に置き換え、それ以外はフライト データ セットの変数 dayweek に対して 0 になるようにすることです。上記の問題は、6 のみを実行し、7 を実行しないことです。データ セットに 7 を含める方法がわかりません。私が試してみました:

そして、他の一般的なダミー変数のトピックを見てきましたが、それらはすべて男性/女性のように単純な 1 対 0 のように見え、その方法を知っています。5つ以上の機能を実行できますか? 以下のサンプルデータ:

0 投票する
3 に答える
104 参照

r - dplyr での複数の集計条件によるサブセット化

日付 X に IP アドレスが 50 回以上存在した場合に値 1 を取るインジケーター変数を定義できる dplyr の簡単で効率的な方法を誰かが知っていることを期待していました。データは 2 つの列で、1 つは IP アドレスで、もう 1 つは関連付けられたアクセス日付です。

例として、Robot 列に次の出力を表示したいと思います (日付と IP の組み合わせが >=3 であると仮定します)。


ありがとう!

0 投票する
1 に答える
1829 参照

python - Pythonでループ内にダミー変数を作成するには?

だから私はたくさんのeatureを持つデータフレームを持っています。そのうちのいくつかはダミー変数にしたいのですが、そのうちのいくつかはそのままにしておきたいのですが、単に入力するのではなく、これを行うための遅延/高速な方法を作成したかったのです。

これが私が思いついた以下のコードです。

ただし、これは、リスト内の n 番目の機能のダミー データフレームである変数 dummy のみを返します。ここで何が間違っていますか?ループごとにリストから新しい名前を取得すると思っていましたが、代わりに、変数ダミーに毎回新しいダミー DF を割り当てているように見えます。

よろしくお願いします。

0 投票する
1 に答える
112 参照

r - R: 無名関数を使用してダミー変数を作成する

カテゴリ変数を含むデータセットがあり、それをダミー変数に変換したいとします。

私は通常、次のようにこれを行います。

これはうまくいきます。ただし、そのようなカテゴリ変数が多数あると想像してください。これら 3 行のコードを何度もコピーして貼り付ける代わりに、無名関数を使用する必要があります。私は次のようにそれを試しました:

次に、次のようにトリガーします。

試してみましたが、何も起こりませんでした。何がうまくいかなかったのですか?私は、無名関数を使用して、多数のカテゴリ変数にわたってこの作業を行うというアイデアが本当に気に入っています。ところで、貼り付けを使用してダミー変数に特定の名前を割り当てたいことは無視してください。ここでは問題ありません。ありがとう!