Hadoop データ セットがあまりにも多くのデータ ブロックに分割されているという問題があります。
すでに存在する Hadoop データ セットがある場合、そのブロックをより少ないがより大きなブロックに結合する方法はありますか?
出力を分割するブロック数の上限を (cloudera)に指定する方法はあります
pig
か?hadoop-streaming.jar
Hadoop データ セットがあまりにも多くのデータ ブロックに分割されているという問題があります。
すでに存在する Hadoop データ セットがある場合、そのブロックをより少ないがより大きなブロックに結合する方法はありますか?
出力を分割するブロック数の上限を (cloudera)に指定する方法はありますpig
か?hadoop-streaming.jar
より大きなブロック サイズが必要な場合は、対応するジョブの目的のブロック サイズ値を pig スクリプトでのみ設定します。
set dfs.block.size 134217728;
または、分割サイズは式に基づいて計算されるため、最小分割サイズを増やすこともできます。
max(minsplitsize, min(maxsplitsize, blocksize))
set mapred.min.split.size 67108864
minsplitsize
、maxsplitsize
とblocksize
パラメータのみで制御する必要があります。