現在、R を使用して分析を実行しています。
Rを使用して処理したいヘッダーがすべて同じCSVファイルが多数あります。もともと、各ファイルをRに順番に読み込み、一緒に分析を実行する前にそれらを行バインドしていました。
読み込む必要のあるファイルの数が増えているため、データを操作するためにすべてのファイルをメモリに保持することは、現実的ではなくなりつつあります。
Rを使用せずにすべてのCSVファイルを結合できるため、メモリに保持しません。これにより、関連する分析を実行できるようにするために、巨大な CSV ファイルを HDFS に変換することは理にかなっていますか? これに加えて...または、各csvファイルの分析を個別に実行し、最後に結合する方が理にかなっていますか?
おそらく、分散ファイル システムと、Amazon のマシンのクラスターを使用して分析を効率的に実行できると考えています。
rmr
hereを見ると、データを HDFS に変換しますが、実際には大きなデータには驚くべきことではないようです...効率的な分析を可能にする方法で csv を変換するにはどうすればよいでしょうか?