1

Hadoop のファイル分割と複数のマッパーに関する一般的な質問があります。私は Hadoop を初めて使用し、最適なパフォーマンスを得るためにセットアップする方法を理解しようとしています。私のプロジェクトは現在、GZIP された WARC ファイルを処理しています。

現在の InputFileFormat を使用すると、ファイルは 1 つのマッパーに送信され、分割されません。これが暗号化されたファイルの正しい動作であることを理解しています。ジョブを分割してより多くのマッパーを使用できるようにするために、ジョブを実行する前の中間ステップとしてファイルを復号化すると、パフォーマンス上の利点はありますか? それは可能でしょうか?マッパーを増やすとレイテンシーのオーバーヘッドが増えますか、それともマッパーを 1 つにする方がよいでしょうか? ご協力いただきありがとうございます。

4

1 に答える 1