hadoop - Hadoop でのヘッダー付きファイルの処理

Question

Hadoop で多くのファイルを処理したいと考えています。各ファイルにはいくつかのヘッダー情報があり、その後に多数のレコードが続き、それぞれが一定のバイト数で格納されています。それに関する提案はありますか？

score 1 · Accepted Answer

1つの解決策があります。マッパーが読み取るファイルの行のオフセットを確認できます。ファイルの最初の行はゼロになります。したがって、次のようにマップに行を追加できます。

public void map（LongWritable key、Text value、Context context）はIOException、InterruptedException{をスローします

        if(key.get() > 0)
                       {
                         your mapper code
                       }
              }

したがって、ファイルの最初の行をスキップします。

ただし、この方法ではファイルの各行についてこの条件がチェックされるため、これは適切な方法ではありません。

最善の方法は、カスタム入力形式を使用することです

score 0 · Accepted Answer

カスタム FileInputFormat を記述することに加えて、ファイルが分割可能でないことを確認して、リーダーがファイル内のレコードを処理する方法を認識できるようにする必要もあります。

3 に答える 3