私は豚の初心者です。
私は豚で小さなスクリプトを書きました。最初に2つの異なるテーブルからデータをロードし、さらに2つのテーブルを右外部結合し、後で2つの異なるデータのテーブルの次の結合も行います.それは正常に動作します.しかし、私はどのステップでデータがロードされるかなど、実行のステップを確認したいデータ結合のステップの詳細を後でロードするのに必要な時間を記録できます。これらの多くのレコードを結合するのにかかる時間などです。
基本的に、豚のスクリプトのどの部分が実行に時間がかかっているかを知りたいので、豚のスクリプトをさらに最適化できます。
とにかく、スクリプト内で println を実行し、どのステップが実行され、どのステップが実行を開始したかを見つけることができます。
ジョブトラッカーの詳細リンクから多くの情報を取得できませんでした。マッパーが実行されていることとリデューサーが実行されていることを確認できましたが、理想的には、スクリプトの一部が実行されているマッパーはそれを見つけることができませんでした。
たとえば、Hive ジョブの実行では、ジョブトラッカーの詳細リンクで、現在どのステップが実行されているかを確認できます。
どんな情報も本当に役に立ちます。
前もって感謝します 。