まず第一に、私は初心者であることを明確にし、質問で正しい用語を使用していない場合は言い訳をしなければなりません。
これは私のシナリオです:
ツイート、コメント、メールなどの大量のテキストを分析する必要があります。現在、データは発生時に Amazon RD MySQL インスタンスに挿入されています。
後で、そのデータに対して RTextTools ( http://www.rtexttools.com/ ) を使用して R ジョブをローカルで実行し、目的の結果を出力します。この時点で、R スクリプトがデータを分析し、データを表示するために後で使用される MySQL テーブルにデータを書き戻すことを明確にすることが重要な場合があります。
私が最近抱えている問題は、ジョブを実行するたびに約 1 時間かかり、少なくとも 1 日に 2 回実行する必要があることです...そのため、ローカル コンピューターを使用することはもはや選択肢ではありません。
代替手段を探して、Amazon Elastic MapReduce インスタンスについて読み始めましたが、これは一見必要なもののように見えますが、ここで質問と混乱を開始します。
- EMR のデータは S3 バケットから取得する必要があると読みました。その場合、RDS インスタンスではなく、S3 バケット内の JSON などにデータを保存する必要がありますよね?
- この時点で、HIVE テーブルを作成し、RHive を使用してデータを読み取り、RTextTools がジョブを実行して結果を RDS テーブルに書き戻すことをお勧めしますが、これは正しいですか?
- そして、最後の最も重要な質問です。R を使用して EC2 インスタンスを実行し、そこで R スクリプトを実行するのと比較して、このすべての問題を解決する価値はありますか?計算時間を短縮できますか?
お時間をいただきありがとうございます。正しい方向へのヒントをいただければ幸いです。