kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) から 20GB のトランザクション データ セットがあります。
行は 3 億を超え、変数は 11 です。
Rで扱うには重すぎるので、データをフィルタリングしたい。
id クラスは interger64 です。
固有 ID は 311541 で、サンプル 20000 が必要です。
data.table を使っていますが、写真のようなエラーが出ます。
IDをサンプリングする方法はありますか?