外部ソースから分散方式でファイルをダウンロードする必要があるプロジェクトがあります。私たちはすでに Hadoop に多額の投資を行っており、MapReduce を活用することを検討していますが、ETL よりも分散タスクとしての価値があります。
1) 誰かこれをやったことがありますか?
2) Reducer のない Mapper のみが必要ですか?
3) FTP/HTTP 接続の抽象的な実装を Mapper に渡す最良の方法は何ですか? --明確にするために、私が得ていたのは、統合テストを実行せずにこれを単体テストするための良い方法が必要であるため、FTP/HTTP をモックする方法が必要だということです。
4) MapReduce は、この種のものに最適な方法ですか? -- MapReduce を悪用していませんか?
ありがとうございました。