問題タブ [dummy-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - Unix / Shell ファイルに列の範囲を追加する
だから私はここ数日間同じ問題を試みてきましたが、フォーマットの障害に直面しています。
同じ数の列で作業している場合にのみ実行されるプログラムがあります。合計列数と、フィラー値 0 で追加する必要がある数はわかっていますが、これを行う方法がわかりません。これには awk または sed の範囲オプションがありますか?
入力:
出力:
アルファベットの列は常に(異なる値で)存在しますが、この「空白を埋める」機能は私を避けています。データファイルのサイズが原因で、これに R を使用できません。
python - パンダで複数の値を持つ列からダミーを作成する
次の問題を処理するためのpythonicな方法を探しています。
このpandas.get_dummies()
方法は、データフレームのカテゴリ列からダミーを作成するのに最適です。たとえば、列に の値がある場合、 は 2 つのダミー変数を作成し['A', 'B']
、get_dummies()
それに応じて 0 または 1 を割り当てます。
今、私はこの状況を処理する必要があります。単一の列、それを「ラベル」と呼びましょう。値は次のようになり['A', 'B', 'C', 'D', 'A*C', 'C*D']
ます。get_dummies()
は 6 つのダミーを作成しますが、行に複数の 1 が含まれるように、4 つだけが必要です。
これをpythonicな方法で処理する方法はありますか? それを取得するための段階的なアルゴリズムしか考えられませんでしたが、それには get_dummies() は含まれません。ありがとう
編集され、より明確になることを願っています!
r - Rでダミー変数を追加する方法
このトピックについていくつかの質問があることは知っていますが、どれも私の特定の質問に答えていないようです.
5 つの独立変数を持つデータセットがあり、R の回帰に 2 つのダミー変数を追加したいと考えています。Excel にデータがあり、データセットのインポートは問題ではありません (read.csv2 を使用します)。ここで、ダミー変数 D1 と D2 を見たいと思っても、できません。他のすべての変数を見ることができます。2 つのダミー変数は両方とも、データセットを通じて 0 と 1 の間で変化します。
D1 と D2 (中央値、平均値など) を含むすべてのデータの概要を簡単に確認でき、5 つの変数のそれぞれを問題なく個別に呼び出すことができますが、D1 ではそれができません。そしてD2。
要約すると、D1 と D2 がなくても R で回帰を実行できますが、実行時に R がこれらの変数を見つけることができないため、これらをダミー変数として含めることはできません。R は単に「オブジェクト D1 が見つかりません」と言っています。
誰かが助けてくれることを願っています。前もって感謝します。
よろしくミケル
r - R (または関連) を含む漂砂図
ある調査で、私は次の 2 つの質問をしました。
- 主な移動手段は何ですか? (回答は1つだけで必須)
- 二次交通機関は何ですか?(0 または多数の回答。各セカンダリ トランスポートには、はいの場合は 0、いいえの場合は 1 が含まれます)
ここにいくつかの偽のデータがあります: http://pastebin.com/raw.php?i=pp1EHP7r
私の目的は、2 つの部分を作成することです。メインのトランスポートを含む左側の部分。二次輸送を伴う右側の部分。次に、右側の列に値 1 がある場合、左側のトランスポートが右側のトランスポートをリンクします。たとえば、最初の観測では、バスはバス (二次輸送機関) とトラム (二次輸送機関) にリンクされますが、メトロ (二次輸送機関) にはリンクされません。
値に1が含まれている場合にのみ、1つのメイントランスポートを他の多くの列に接続する必要があるため、その方法が本当にわかりません...
そのようなグラフフローを探していますhttp://app.raw.densitydesign.org/#/
r - ダミー パッケージの NA
dummies パッケージの R dummy.data.frame 関数を使用して、因子の k レベルのダミー変数を作成しています。残念ながら、私の要素には NA があります。dummy.data.frame を使用すると、NA のない k 個のダミーと、欠損値に 1 のフラグを立てる新しいダミーが作成されます。ただし、欠損値のダミーではなく、k 個のダミーに NA を保持したいと考えています。
その機能でこれは可能ですか?私を助けることができる他の機能を知っていますか?
r - 歪んだダミー データセットの作成
実験室データから異常値を除去するためのいくつかの戦略をテストするために、正規曲線と歪んだ正規曲線を組み合わせたダミー データセットを作成したいと考えています。これは、私のデータが真の (良い) 重複と、ポイントの 1 つがさまざまな量に対して正しくない重複の組み合わせである状況を再現するためです。
rnorm を使用して適切なデータを作成できますが、歪度を導入して疑わしいデータを生成するにはどうすればよいですか?
ありがとうございました。
r - R: 各因子レベルのダミー列に R 因子を展開する
R に 2 つの列を持つ非常に大きなデータ フレームがあります。Code
列(factor
858レベルのタイプ)からダミー変数を作成しようとしています。問題は、それを行おうとすると R Studio が常にクラッシュすることです。
列は一意ではありません。User
つまり、同じ を持つ複数の行が存在する可能性がありますUser
。最終的に行の数が同じままであるか、同じ行が sUser
の数で空でないいくつかの列を持つ 1 つの行にマージされるかどうかは問題ではありませんCode
。
小さなデータセットでは機能するが、私のものでは機能しないソリューションがいくつか見つかりました。
を使用してみ
model.matrix
ましたが、R Studio がクラッシュするだけですfor
でサイクルを試みましifelse
たが、コードが 4 時間実行された後、R Studio がクラッシュしたことに気付きました。
そのようなタイプのデータに対して高速で機能する方法をお勧めしていただければ幸いです。
ありがとう!