私は「ビッグデータ」について学ぼうとしていますが、始める唯一の方法はすぐに飛び込むことだと考えました。注目に値するのは、自宅にある単一のマシンを使用することです。コンテキストとして、合計約 300 GB のデータの約 700 個のテキスト ファイルがあります。各ファイルには、先月にわたって Twitter の消防署から取得された JSON 応答が含まれています。
私は R が大好きで、最終的にはデータセットを研究するために R を何に使うかを考えていますが、データを「保存」する方法が必要であることはわかっています。Hadoop と HDFS についてはよく耳にしますが、頭を悩ませることはできません。テキスト ファイルをローカル マシンの HDFS に単純に「コピー」し、RHadoop
Map/Reduce ステートメントを記述してデータセットを作成しますか?
最後に、私は MongoDB を稼働させており、そこにデータを保存することを検討していましたが、Haddop 用のアダプターがあることは知っていますが、分析パフォーマンスが向上するかどうかはわかりません。
私の質問: データを正常にキャプチャした後、R (およびその他のツール) を使用してデータを分析できるように、これを保存する最良の方法は何ですか。