0

Hadoop ファイルシステムには、X と Y という 2 つのファイルがあります。通常、hadoop は、サイズが 64 MB のファイル X と Y のチャンクを作成します。X の 32 MB と Y の 32 MB から 64 MB のチャンクが作成されるように、hadoop に強制的に 2 つのファイルを分割させることはできますか?

4

1 に答える 1

0

ファイルのパーティション分割は、ファイル形式に論理的に依存するため、FileInputFormat の関数です。他の形式で独自の入力を作成できます。したがって、単一のファイルごとに-それを行うことができます。
ファイルは処理の基本単位であるため、単一の分割で異なるファイルの 2 つの部分を混合すると問題が発生します。
なぜそのような要件があるのですか?以下の要件が表示されます。データの局所性は少なくとも部分的に犠牲にする必要があると言えます.1つのファイルに対してマップローカルを実行できますが、両方に対しては実行できません.
ある種の「ファイルペア」ファイルを作成し、それを分散キャッシュに入れてから、map 関数で HDFS から 2 番目のファイルをロードすることをお勧めします。

于 2012-04-23T17:53:08.453 に答える