デジタル リポジトリ (Fedora Commons) 用のイメージ ファイル (数 MB から 200 MB) をホストする hdfs システムを計画しています。別のスタックオーバーフローの投稿から、CombineFileInputFormat を使用して、複数の入力ファイルで構成される入力分割を作成できることがわかりました。このアプローチは画像や pdf に使用できますか? マップ タスク内で、個々のファイル全体を処理します。つまり、入力分割内の各画像を個別に処理します。
私は小さなファイルの問題を認識しており、私のケースでは問題になりません。
Mapper タスクのセットアップ/クリーンアップのオーバーヘッドを回避し、データの局所性を維持するという利点のために、CombineFileInputFormat を使用したいと考えています。