3

Hadoop データ セットがあまりにも多くのデータ ブロックに分割されているという問題があります。

  1. すでに存在する Hadoop データ セットがある場合、そのブロックをより少ないがより大きなブロックに結合する方法はありますか?

  2. 出力を分割するブロック数の上限を (cloudera)に指定する方法はありますpigか?hadoop-streaming.jar

4

2 に答える 2

2
  1. より大きなブロック サイズが必要な場合は、対応するジョブの目的のブロック サイズ値を pig スクリプトでのみ設定します。

    set dfs.block.size 134217728;

または、分割サイズは式に基づいて計算されるため、最小分割サイズを増やすこともできます。

max(minsplitsize, min(maxsplitsize, blocksize))

set mapred.min.split.size 67108864
  1. 作成されるブロックの数を制限することはできません。これはminsplitsizemaxsplitsizeblocksizeパラメータのみで制御する必要があります。
于 2014-05-16T16:15:35.213 に答える