私は現在、Pig Latinで大きな入力テーブル(10 ^ 7行)を処理しています。このテーブルは、あるフィールドでフィルター処理され、処理され、処理された行が元のテーブルに戻されます。処理された行が元のテーブルに戻されると、フィルターの基になるフィールドが変更され、後続のフィルター処理で処理されたフィールドが無視されるようになります。
Apache Pigでは、最初に処理済みテーブルと未処理テーブルをフィルタリング基準で分割し、処理を適用して2つのテーブルを結合し直すか、最初のテーブルをフィルタリングし、フィルター処理されたテーブルにプロセスを適用して左結合を実行する方が効率的ですか。主キーを使用する元のテーブル?