r - 現在のRベースのビッグデータの最適な設定は何ですか？

Question

私は「中」と「大」のデータの間のそのスペースにいます。私には＃課題があります：

サーバーからローカルマシンへの効率的なダウンロード/IO。

私のデータはアマゾンウェブサーバーに保存されています。現在、データセット全体を毎日ダウンロードしています（変更は5％未満を表します）。

メモリが問題にならないように、単一のコンピューターで大きなデータセットを処理します。

ラップトップとdeskopコンピューターで同じ開発経験をしたいと思っています。AWSでRStudioのサーバーアプリケーションを使用しましたが、アプリケーション自体がやや遅く、ローカルでRStudioを使用することを好みます。

この時点では、CPUパワーにそれほど制限されていません。ほとんどの場合、ダウンロード/IOとメモリだけです。このプロセスをより効率的にするために何を学ぶべきですか？

score 1 · Accepted Answer

実際の計算が何であるかについて言及していないため、適切なアドバイスを提供することは困難ですが、メモリ不足のソリューションについては、次のことを検討してください。

問題を明示的に小さな問題に分割する (「チャンク」ごとにファイルを作成する)
ストリーミングソリューション -- データを一度に数行ずつ処理できます
R での真のメモリ不足作業には、ff および BigMemory パッケージ。
parallel パッケージなどの並列コンピューティングソリューション (メモリの問題には直接対応していません)

メモリ不足のソリューションは、メモリ内のソリューションよりもかなり遅くなる可能性が高く、より専門的な作業が必要になる可能性があることに注意してください。最初のステップは、可能であれば RAM を追加購入することです。特に、小規模なマシンから始める場合は特にそうです。最近では、256G を超える RAM を搭載したマシンを入手するのは難しくありません。

データ転送の場合は、可能であれば rsync などの増分ソリューションを使用し、それが理にかなっている場合 (データセットへの小さな変更) を使用してください。ユースケースに一致するように聞こえます。

r - 現在のRベースのビッグデータの最適な設定は何ですか？

1 に答える 1

Related

Reference