2

私のデータ入力ファイルはすべて同じ長さですが、その中のレコードは 2 つのファイルにまたがる場合があります (最初のファイルの末尾から開始し、2 番目のファイルの先頭で終了します)。

これら 2 つのファイルにまたがる入力分割を作成することはできますか?

レコードが複数のファイルにまたがらないように、まったく新しい一連のファイルを作成する方がよいでしょうか?

4

1 に答える 1

1

レコードが複数のファイルにまたがらないようにすることは間違いありません。理論的には、これを処理する独自の入力形式を作成できますが、オーバーヘッドはかなりのものになる可能性があります。ファイルは一緒に属します - jobtracker と name ノードがあなたのために果たす責任の一部を引き継ぎます。

入力がどこにあるかをジョブトラッカー/名前ノードに自由に伝える必要があります。処理を真に並列にするために、その制御の一部を取り戻す必要はありません。私見は、使用するオブジェクトを部分的に無効にしますそもそもハプ。

于 2012-10-29T15:27:26.850 に答える