“dummy-data”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

406 参照

shell - Unix / Shell ファイルに列の範囲を追加する

だから私はここ数日間同じ問題を試みてきましたが、フォーマットの障害に直面しています。

同じ数の列で作業している場合にのみ実行されるプログラムがあります。合計列数と、フィラー値 0 で追加する必要がある数はわかっていますが、これを行う方法がわかりません。これには awk または sed の範囲オプションがありますか?

入力：

出力：

アルファベットの列は常に（異なる値で）存在しますが、この「空白を埋める」機能は私を避けています。データファイルのサイズが原因で、これに R を使用できません。

2013-07-28T17:27:05.773

0 投票する

4 に答える

33547 参照

python - パンダで複数の値を持つ列からダミーを作成する

次の問題を処理するためのpythonicな方法を探しています。

このpandas.get_dummies()方法は、データフレームのカテゴリ列からダミーを作成するのに最適です。たとえば、列にの値がある場合、は 2 つのダミー変数を作成し['A', 'B']、get_dummies()それに応じて 0 または 1 を割り当てます。

今、私はこの状況を処理する必要があります。単一の列、それを「ラベル」と呼びましょう。値は次のようになり['A', 'B', 'C', 'D', 'A*C', 'C*D']ます。get_dummies()は 6 つのダミーを作成しますが、行に複数の 1 が含まれるように、4 つだけが必要です。

これをpythonicな方法で処理する方法はありますか? それを取得するための段階的なアルゴリズムしか考えられませんでしたが、それには get_dummies() は含まれません。ありがとう

編集され、より明確になることを願っています！

python pandas dummy-data categorical-data

2013-09-19T08:20:56.207

0 投票する

1 に答える

478 参照

r - Rでダミー変数を追加する方法

このトピックについていくつかの質問があることは知っていますが、どれも私の特定の質問に答えていないようです.

5 つの独立変数を持つデータセットがあり、R の回帰に 2 つのダミー変数を追加したいと考えています。Excel にデータがあり、データセットのインポートは問題ではありません (read.csv2 を使用します)。ここで、ダミー変数 D1 と D2 を見たいと思っても、できません。他のすべての変数を見ることができます。2 つのダミー変数は両方とも、データセットを通じて 0 と 1 の間で変化します。

D1 と D2 (中央値、平均値など) を含むすべてのデータの概要を簡単に確認でき、5 つの変数のそれぞれを問題なく個別に呼び出すことができますが、D1 ではそれができません。そしてD2。

要約すると、D1 と D2 がなくても R で回帰を実行できますが、実行時に R がこれらの変数を見つけることができないため、これらをダミー変数として含めることはできません。R は単に「オブジェクト D1 が見つかりません」と言っています。

誰かが助けてくれることを願っています。前もって感謝します。

よろしくミケル

r dummy-data

2013-09-26T12:33:37.017

0 投票する

2 に答える

1423 参照

r - R (または関連) を含む漂砂図

ある調査で、私は次の 2 つの質問をしました。

主な移動手段は何ですか? (回答は1つだけで必須)
二次交通機関は何ですか？(0 または多数の回答。各セカンダリトランスポートには、はいの場合は 0、いいえの場合は 1 が含まれます)

ここにいくつかの偽のデータがあります: http://pastebin.com/raw.php?i=pp1EHP7r

私の目的は、2 つの部分を作成することです。メインのトランスポートを含む左側の部分。二次輸送を伴う右側の部分。次に、右側の列に値 1 がある場合、左側のトランスポートが右側のトランスポートをリンクします。たとえば、最初の観測では、バスはバス (二次輸送機関) とトラム (二次輸送機関) にリンクされますが、メトロ (二次輸送機関) にはリンクされません。

値に1が含まれている場合にのみ、1つのメイントランスポートを他の多くの列に接続する必要があるため、その方法が本当にわかりません...

そのようなグラフフローを探していますhttp://app.raw.densitydesign.org/#/

r conditional diagram flow dummy-data

2013-10-10T12:46:11.677

0 投票する

1 に答える

861 参照

r - ダミーパッケージの NA

dummies パッケージの R dummy.data.frame 関数を使用して、因子の k レベルのダミー変数を作成しています。残念ながら、私の要素には NA があります。dummy.data.frame を使用すると、NA のない k 個のダミーと、欠損値に 1 のフラグを立てる新しいダミーが作成されます。ただし、欠損値のダミーではなく、k 個のダミーに NA を保持したいと考えています。

その機能でこれは可能ですか？私を助けることができる他の機能を知っていますか？

r na dummy-data

2014-02-19T08:53:18.643

0 投票する

0 に答える

133 参照

r - 歪んだダミーデータセットの作成

実験室データから異常値を除去するためのいくつかの戦略をテストするために、正規曲線と歪んだ正規曲線を組み合わせたダミーデータセットを作成したいと考えています。これは、私のデータが真の (良い) 重複と、ポイントの 1 つがさまざまな量に対して正しくない重複の組み合わせである状況を再現するためです。

rnorm を使用して適切なデータを作成できますが、歪度を導入して疑わしいデータを生成するにはどうすればよいですか?

ありがとうございました。

r dummy-data

2014-03-03T02:49:26.530

0 投票する

1 に答える

3678 参照

r - R: 各因子レベルのダミー列に R 因子を展開する

R に 2 つの列を持つ非常に大きなデータフレームがあります。Code列（factor858レベルのタイプ）からダミー変数を作成しようとしています。問題は、それを行おうとすると R Studio が常にクラッシュすることです。

列は一意ではありません。Userつまり、同じを持つ複数の行が存在する可能性がありますUser。最終的に行の数が同じままであるか、同じ行が sUserの数で空でないいくつかの列を持つ 1 つの行にマージされるかどうかは問題ではありませんCode。

小さなデータセットでは機能するが、私のものでは機能しないソリューションがいくつか見つかりました。

を使用してみmodel.matrixましたが、R Studio がクラッシュするだけです

ここにあります因子レベルごとに R 因子を 1/0 指標変数のコレクションに自動的に展開します
forでサイクルを試みましifelseたが、コードが 4 時間実行された後、R Studio がクラッシュしたことに気付きました。

ここにありますカテゴリ変数から新しいダミー変数列を作成します

そのようなタイプのデータに対して高速で機能する方法をお勧めしていただければ幸いです。

ありがとう！

r bigdata categorical-data dummy-data model.matrix

2014-03-09T18:46:14.450

問題タブ [dummy-data]

Reference