0

Pig の Multiquery Optimizer が期待どおりに機能しないという問題が発生しています。

私が理解したように、以下のスクリプトは 1 つの MR ジョブとして実行する必要がありますが、クラスターでは 2 つのジョブとして実行されます。マルチクエリ最適化はデフォルトでオンになっているはずですが、ここで何か不足していますか? グループを「フィルター」ステートメントで置き換えると、1 つの MR ジョブとして機能します。

data = LOAD 'input' AS (a:chararray, b:int, c:int);
A = GROUP data BY b;
B = GROUP data BY c;
STORE A INTO 'output1';
STORE B INTO 'output2';

CDH パックの pig 0.1.0 と Hadoop 2.0.0 を使用しています。

4

3 に答える 3

0

0.1.0 が豚のインストールの実際のバージョンである場合、それは非常に古いものです。最新バージョンは 0.11.1 です。

0.11.1 ドキュメントのパフォーマンスに関するページ: http://pig.apache.org/docs/r0.11.1/perf.html

于 2013-08-23T18:49:14.660 に答える