この度はお読みいただき、誠にありがとうございました。
私は、csv形式の600万レコードと3000列(ほとんどがカテゴリデータ)の超サイズの30GBファイルを持っています。多項回帰のサブサンプルをブートストラップしたいのですが、マシンに 64 GB の RAM があり、そのスワップ ファイルの 2 倍であっても、プロセスが非常に遅くなり停止します。
R でサブサンプル インデックスを生成し、sed または awk を使用してシステム コマンドに入力することを考えていますが、これを行う方法がわかりません。R コマンドだけを使用してこれを行うクリーンな方法を誰かが知っていれば、本当に感謝しています。
1 つの問題は、サブサンプルの完全な観測を選択する必要があることです。つまり、特定の多項観測のすべての行が必要です。観測から観測までの長さが同じではありません。glmnet を使用してから、多項式の場合の近似値を取得するためにいくつかの凝った変換を使用する予定です。もう1つのポイントは、メモリ制限に合わせてサンプルサイズを選択する方法がわからないことです。
あなたの考えを大いに評価してください。
R.version
platform x86_64-pc-linux-gnu
arch x86_64
os linux-gnu
system x86_64, linux-gnu
status
major 2
minor 15.1
year 2012
month 06
day 22
svn rev 59600
language R
version.string R version 2.15.1 (2012-06-22)
nickname Roasted Marshmallows
依田