hadoop - Hadoop データセット内のファイル (ブロック) の数を制限しますか?

翻译自：https://stackoverflow.com/questions/23699050 2014-05-16T15:24:04.040

1339 次

3

Hadoop データセットがあまりにも多くのデータブロックに分割されているという問題があります。

すでに存在する Hadoop データセットがある場合、そのブロックをより少ないがより大きなブロックに結合する方法はありますか?
出力を分割するブロック数の上限を (cloudera)に指定する方法はありますpigか?hadoop-streaming.jar

2 に答える 2

2

より大きなブロックサイズが必要な場合は、対応するジョブの目的のブロックサイズ値を pig スクリプトでのみ設定します。

set dfs.block.size 134217728;

または、分割サイズは式に基づいて計算されるため、最小分割サイズを増やすこともできます。

max(minsplitsize, min(maxsplitsize, blocksize))

set mapred.min.split.size 67108864

作成されるブロックの数を制限することはできません。これはminsplitsize、maxsplitsizeとblocksizeパラメータのみで制御する必要があります。

于 2014-05-16T16:15:35.213 に答える