すべてのオペレーター (group by、ストリーミングなど) と、PIG によって実行される対応するアクション (つまり、オペレーターがもたらす MR ジョブの種類/数) をリストする Apache 豚のドキュメントを知っている人はいますか?
私はストリーミングの側面に特に興味があります.MRジョブにどのようにマッピングされますか.
すべてのオペレーター (group by、ストリーミングなど) と、PIG によって実行される対応するアクション (つまり、オペレーターがもたらす MR ジョブの種類/数) をリストする Apache 豚のドキュメントを知っている人はいますか?
私はストリーミングの側面に特に興味があります.MRジョブにどのようにマッピングされますか.
ただし、完全なリストではありませんが、次の記事/セクションを読む価値があると思います。
Map-Reduce の上に高度なデータフロー システムを構築する: 豚の経験
(セクション 4. MapReduce へのコンパイル)
http://infolab.stanford.edu/~olston/publications/vldb09.pdf
Pig Latin: A Not-So-Foreign Language for Data Processing
(Chapter 4.2 Map-Reduce Plan Compilation)
http://infolab.stanford.edu/~olston/publications/sigmod08.pdf
さらに、スクリプトでいつでもEXPLAINまたはILLUSTRATEを発行して、舞台裏で何が起こっているかを確認できます。