0

デジタル リポジトリ (Fedora Commons) 用のイメージ ファイル (数 MB から 200 MB) をホストする hdfs システムを計画しています。別のスタックオーバーフローの投稿から、CombineFileInputFormat を使用して、複数の入力ファイルで構成される入力分割を作成できることがわかりました。このアプローチは画像や pdf に使用できますか? マップ タスク内で、個々のファイル全体を処理します。つまり、入力分割内の各画像を個別に処理します。

私は小さなファイルの問題を認識しており、私のケースでは問題になりません。

Mapper タスクのセットアップ/クリーンアップのオーバーヘッドを回避し、データの局所性を維持するという利点のために、CombineFileInputFormat を使用したいと考えています。

4

1 に答える 1

0

Hadoopで画像を処理する場合は、 HIPIの使用のみをお勧めします。これにより、必要な処理を実行できるようになります。

そうでなければ、個々のファイル全体を処理したい場合、従来の入力形式ではこれを実行できないと思います。これは、を使用してもCombineFileInputFormat、分割されたものが正確に1つの画像であるという保証がないためです。

また、画像のURL /場所を含むファイルを入力して(たとえば、Amazon S3に配置することもできます)、画像と同じ数のマッパーがあることを確認することも検討できます。そうすると、各マップタスクは次のようになります。個々の画像を処理することができます。私はそれほど前に似たようなことをしました、そしてそれはうまくいきました。

于 2013-02-16T17:59:00.563 に答える