550 Gb のデータを超える豚のラテン スクリプトを実行しています。レデューサーはデフォルト 1 です。結果を生成するのに約 38 分かかります。レデューサーの数を増やすとスクリプトの実行が速くなるかどうか知りたかった
どんな助けでも大歓迎です。
また、マッパーとリデューサーの設定の背後にある概念を知りたいと思っていました。
550 Gb のデータを超える豚のラテン スクリプトを実行しています。レデューサーはデフォルト 1 です。結果を生成するのに約 38 分かかります。レデューサーの数を増やすとスクリプトの実行が速くなるかどうか知りたかった
どんな助けでも大歓迎です。
また、マッパーとリデューサーの設定の背後にある概念を知りたいと思っていました。
レデューサーの数を増やすと、確かに役立ちます(実行している操作に集計がある場合)。実際の集計はレデュース側で行われるため、複数のレデューサーを実行するとパフォーマンスが向上します。
'Parallel' キーワードを使用して pig のレデューサーの数を設定できます。例: A = LOAD 'myfile' AS (t、u、v); B = GROUP A BY t PARALLEL 18;
マッパーの数は、使用する入力のサイズと入力形式によって決まります。通常、マッパーの数は、入力分割の数と同じです。
はい、もちろん複数のレデューサーを持つことができます。
異なる色は異なるキーを表します。同じキーを持つすべての値は、単一の reduce タスクに提示されます。
つまり、異なるキーに対して複数のリデューサーを使用できます
このリンクを参照してください
PIG で利用可能な Parallel 機能を使用できます。詳細については、このリンクを参照してください。PIGパラレル機能