MapReduce は初めてです。簡単な単語数の例から始めました。
Eclipse IDE を使用して、単純な Java Maven プロジェクトを作成し、MapReduce 依存関係を追加し、プログラムを Jar にコンパイルし、それを Cloudera CDH VM にコピーし、ダミーの入力データで実行しました。正常に実行されていることを確認したら、その Jar を AWS EMR 環境に取り込み、より大きな (本番) データセットで実行しました。
つまり、Eclipse は私の IDE、Cloudera CDH VM は私の開発環境、AWS EMR は私の実稼働環境です。
このセットアップは、単語数のような小さなプロジェクトを扱っている場合には問題なく機能しますが、MapReduce プロジェクトが大きくなるほど、環境間で Jar ファイルを転送するのが面倒になります。これにより、反復開発が非常に退屈になります。
私が持っているこの環境セットアップを、反復的で大規模な MapReduce 開発プロジェクトにより適したものにするために、調整/改良/解体/再構築できるかどうか疑問に思っていました。
ヘルプ/ヒントをいただければ幸いです。ダンケシェーン。