私は「中」と「大」のデータの間のそのスペースにいます。私には#課題があります:
- サーバーからローカルマシンへの効率的なダウンロード/IO。
私のデータはアマゾンウェブサーバーに保存されています。現在、データセット全体を毎日ダウンロードしています(変更は5%未満を表します)。
- メモリが問題にならないように、単一のコンピューターで大きなデータセットを処理します。
ラップトップとdeskopコンピューターで同じ開発経験をしたいと思っています。AWSでRStudioのサーバーアプリケーションを使用しましたが、アプリケーション自体がやや遅く、ローカルでRStudioを使用することを好みます。
この時点では、CPUパワーにそれほど制限されていません。ほとんどの場合、ダウンロード/IOとメモリだけです。このプロセスをより効率的にするために何を学ぶべきですか?