Hadoop 2.0.5 で Apache Pig .11.1 を実行しています。
私が Pig で実行するほとんどの単純なジョブは、問題なく動作します。
ただし、大規模なデータセットで GROUP BY または LIMIT 演算子を使用しようとすると、次の接続エラーが発生します。
2013-07-29 13:24:08,591 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
013-07-29 11:57:29,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:30,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:31,422 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
...
2013-07-29 13:24:18,597 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 13:24:18,598 [main] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:gpadmin (auth:SIMPLE) cause:java.io.IOException
奇妙なことに、これらのエラーは約 2 分間表示され続けた後、停止し、正しい出力が一番下に表示されます。
したがって、Hadoop は正常に動作し、適切な出力を計算しています。問題は、ポップアップし続けるこれらの接続エラーだけです。
LIMIT
オペレーターは常にこのエラーを受け取ります。MapReduce モードとローカル モードの両方で発生します。オペレーターはGROUP BY
小さなデータセットでうまく機能します。
私が気づいたことの 1 つは、このエラーが表示されるたびに、ジョブがジョブ中に複数の JAR ファイルを作成して実行していたことです。ただし、これらのメッセージがポップアップ表示されてから数分後、最終的に正しい出力が表示されます。
これらのメッセージを取り除く方法について何か提案はありますか?