amazon-s3 - Hadoop 入力ファイル

Question

Hadoop の実行時に、入力フォルダーにそれぞれ 1 行の n 個のファイルがあることと、入力フォルダーに n 行の 1 個のファイルがあることに違いはありますか?

n個のファイルがある場合、「InputFormat」はすべてを1つの連続したファイルとして認識しますか?

score 3 · Accepted Answer

大きな違いがあります。これは「小さなファイルの問題」と呼ばれることが多く、Hadoop は巨大な入力を小さなタスクに分割することを期待しているが、小さな入力を大きなタスクに集めることは想定していないという事実に関係しています。

大量のファイルを作成することを避けることができる場合は、そうしてください。可能な場合は連結します。分割可能な大きなファイルは、Hadoop に適しています。

以前、netflix データセットで Pig を実行したことがあります。ほんの数ギグを処理するのに何時間もかかりました。次に、入力ファイル (映画ごとのファイル、またはユーザーごとのファイルだったと思います) を 1 つのファイルに連結し、数分で結果が得られました。

1 に答える 1