大量 (1000 ~ 10000) の大きな (100MB ~ 500MB) 画像を処理する必要があるプロジェクトがあります。私が行っている処理は Imagemagick を介して行うことができますが、実際にこの処理を Amazon の Elastic MapReduce プラットフォーム (Hadoop を使用して実行されていると思われます) で行うことを望んでいました。
私が見つけたすべての例の中で、それらはすべてテキストベースの入力を扱っています (Word Count が 10 億回サンプリングしていることがわかりました)。Hadoop でのこの種の作業については何も見つかりません。一連のファイルから始めて、各ファイルに対して同じアクションを実行し、新しいファイルの出力を独自のファイルとして書き出します。
これはこのプラットフォームで実行できると確信しており、Bash を使用して実行できるはずです。わざわざ Java アプリケーション全体を作成する必要はないと思いますが、間違っている可能性もあります。
誰かにコードを渡してくれるように頼んでいるわけではありませんが、サンプル コードや、同様の問題を扱うチュートリアルへのリンクを持っている人がいれば、大歓迎です...