image-processing - 画像 (または BLOB) に CombineFileInputFormat を使用していますか?

Question

デジタルリポジトリ (Fedora Commons) 用のイメージファイル (数 MB から 200 MB) をホストする hdfs システムを計画しています。別のスタックオーバーフローの投稿から、CombineFileInputFormat を使用して、複数の入力ファイルで構成される入力分割を作成できることがわかりました。このアプローチは画像や pdf に使用できますか? マップタスク内で、個々のファイル全体を処理します。つまり、入力分割内の各画像を個別に処理します。

私は小さなファイルの問題を認識しており、私のケースでは問題になりません。

Mapper タスクのセットアップ/クリーンアップのオーバーヘッドを回避し、データの局所性を維持するという利点のために、CombineFileInputFormat を使用したいと考えています。

score 0 · Accepted Answer

Hadoopで画像を処理する場合は、 HIPIの使用のみをお勧めします。これにより、必要な処理を実行できるようになります。

そうでなければ、個々のファイル全体を処理したい場合、従来の入力形式ではこれを実行できないと思います。これは、を使用してもCombineFileInputFormat、分割されたものが正確に1つの画像であるという保証がないためです。

また、画像のURL /場所を含むファイルを入力して（たとえば、Amazon S3に配置することもできます）、画像と同じ数のマッパーがあることを確認することも検討できます。そうすると、各マップタスクは次のようになります。個々の画像を処理することができます。私はそれほど前に似たようなことをしました、そしてそれはうまくいきました。

image-processing - 画像 (または BLOB) に CombineFileInputFormat を使用していますか?

1 に答える 1

Related

Reference