これが R のまったく新しい概念ではないことは承知しており、High Performance and Parallel Computing Task View を参照しました。そうは言っても、私はコンピューターサイエンスの正式なトレーニングを受けておらず、完全に独学であるため、無知からこの質問をしています。
最近、Twitter Streaming API からデータを収集しました。現在、生の JSON は 10 GB のテキスト ファイルに格納されています。ビッグ データを処理するように R を適応させることに大きな進歩があったことは知っていますが、この問題にどのように対処しますか? ここに私がやろうとしているタスクのほんの一握りがあります:
- データをデータ フレームに読み取って処理する
- テキストマイニングを含む基本的な記述分析(頻出用語など)
- プロット
これに R を完全に使用することは可能ですか、それとも、R に収まるほど小さいランダム サンプルを取得するために、データを解析してデータベースに投入する Python を作成する必要がありますか?
簡単に言えば、提供できるヒントや指針は大歓迎です。繰り返しますが、3 年生レベルでの解決策を説明しても、私は気分を害することはありません。
前もって感謝します。