image - Hadoop の InputSplit 間で重複していますか?

Question

1 つ以上の潜在的に非常に大きな PGM ファイルで畳み込みを行う Hadoop ジョブを作成しています。各マッパーはファイルの 1 つからいくつかの行を処理し、リデューサーはファイルを再びまとめます。ただし、各マッパーは、畳み込みを行っているその上下に数行必要です。通常、この冗長性を得るために RecordReader を作成したため、これは問題になりませんが、最後の分割からの行にアクセスできないため、InputSplit の最初と最後の行に問題が生じます。

最初の最後の数行が 2 番目の最初の数行になるように、InputSplits をオーバーラップさせる方法はありますか?

score 0 · Accepted Answer

独自のカスタムスプリッターを作成できます。スティーブン・ルイスによるこの投稿を参照してください

image - Hadoop の InputSplit 間で重複していますか?

1 に答える 1

Related

Reference