1

10 列と約 700K 行の data.frame があります。
列値のペアごとの散布図を表示するには、pairs(data.frame) 関数を使用します。各プロットに 700K 行すべてをプロットする必要はない (または実行可能である) ため、プロットする行のランダムなサブセットを 2 または 3K (いくつかの少数) 選択したいと思います。

私のデータフレームの小さなランダムなサブセットを選択するための私のオプションを誰かが手伝ってくれますか. どちらかと思います

  1. data.frame の X% のランダムなサブセットまたは
  2. N行ごとに機能します。

    私はこれが行われたことを知っていますが、コードスニペットを見つけることができません....

ありがとう

4

2 に答える 2

3

重要な質問は、行のランダムなサブセットがデータセット全体を正確に説明するかどうかです。
データが何を表しているか (時系列とランダム サンプリング、またはその他) を理解するまでは、プロットする適切なサブセットについて適切なアドバイスを提供することは困難です。

たとえば、各列を介して関数を作成し、splinefun最小から最大までの均一な間隔で適合データのプロットを生成する方がよいでしょうか?

于 2013-11-08T15:33:49.170 に答える
1

このようなものは機能しますか?

a <- sample(1:700000,10) # option 1
a <- seq(1, 700000, by = 200) # option 2

次に、サブセットを次のように取得できます-

randomssubset <- df[a,]
于 2013-11-08T14:50:15.973 に答える