r - Hadoop と R の概要

Question

私は「ビッグデータ」について学ぼうとしていますが、始める唯一の方法はすぐに飛び込むことだと考えました。注目に値するのは、自宅にある単一のマシンを使用することです。コンテキストとして、合計約 300 GB のデータの約 700 個のテキストファイルがあります。各ファイルには、先月にわたって Twitter の消防署から取得された JSON 応答が含まれています。

私は R が大好きで、最終的にはデータセットを研究するために R を何に使うかを考えていますが、データを「保存」する方法が必要であることはわかっています。Hadoop と HDFS についてはよく耳にしますが、頭を悩ませることはできません。テキストファイルをローカルマシンの HDFS に単純に「コピー」し、RHadoopMap/Reduce ステートメントを記述してデータセットを作成しますか?

最後に、私は MongoDB を稼働させており、そこにデータを保存することを検討していましたが、Haddop 用のアダプターがあることは知っていますが、分析パフォーマンスが向上するかどうかはわかりません。

私の質問: データを正常にキャプチャした後、R (およびその他のツール) を使用してデータを分析できるように、これを保存する最良の方法は何ですか。

score 1 · Accepted Answer

MongoDB は絶対に使用しないでください。バッチ分析用に設計されていないため、その目的ではパフォーマンスを発揮しません。

ファイルを HDFS に単純にコピーして RHadoop を使用するというアイデアは、一般的には適切ですが、1 台のマシンのみを使用するのは理想的なケースではありません。1 台のマシンが持つ複数のコアを確実に有効に活用し、メモリをオーバーフローさせることなくすべてを処理しますが、理想的なツールではない可能性があります。

そこにあるRライブラリについてはあまり知りませんが、大きなデータセットを処理するためのより良いライブラリがあるかもしれないと思いますが、複数のマシンが必要なほど大きくはありません. まったく、従来の分析データベースにデータを入れるだけでも良いかもしれません。

score 1 · Accepted Answer

大量のバッチ処理を行いたくなく、ツイートに対してリアルタイムのクエリを実行したくない場合は、MongoDB のような非リレーショナル DB が非常に適しています。リアルタイムクエリについては、MongoDB の Aggregation Framework を調べてください。

つまり、データで本当にやりたいことは何ですか? 場所周辺のツイートを検索し、平均フォロワー数を表示しますか? それとも長期トレンド分析？

これは、誰かが 300 万件のツイートをスクレイピングした ruby/mongodb の投稿です: how-i-scraped-and-stored-over-3-million-tweets

r - Hadoop と R の概要

2 に答える 2

Related

Reference