Hadoop のサンプル プログラム WordCount を使用して、大量の小さなファイル/Web ページ (約 2 ~ 3 kB) を処理しています。これは Hadoop ファイルの最適なファイル サイズからかけ離れているため、プログラムは非常に遅くなります。ジョブの設定と引き裂きのコストが、ジョブ自体よりもはるかに大きいためだと思います。このような小さなファイルは、ファイル名の名前空間を枯渇させる原因にもなります。
この場合、HDFS アーカイブ (HAR) を使用する必要があると読みましたが、このプログラム WordCount を変更してこのアーカイブから読み取る方法がわかりません。プログラムは変更しなくても動作し続けますか、または変更が必要ですか?
アーカイブに多くのファイルをパックしても、パフォーマンスが向上するかどうかは疑問です。複数のファイルをパックしても、1 つのアーカイブ内のこのファイルは 1 つのマッパーによって処理されるのではなく、多くのファイルが処理されることを読みました。これは、私の場合 (推測) パフォーマンスを向上させません。
この質問が単純すぎる場合は、私が Hadoop の初心者であり、Hadoop の経験がほとんどないことを理解してください。