複数のコレクションがあり、両方のコンテンツに基づいて mapReduce を介して単一の情報コレクションを作成しています。私のreduceメソッドでは、ソースコレクションに基づいて条件付きロジックを適用する方法、または出力コレクションからの既存のキーである場合にどのように適用できますか。
コレクション A を情報コレクションに減らす場合:
- 入力コレクションに固有のフィールドのサブセットから値を合計し、それらのフィールドを上書きしたいと考えています。情報コレクション内の既存のキーの値を合計に含めたくありません。
- キーが情報コレクションに存在する場合、それらのフィールドだけを上書きし、キーが存在する場合は他のフィールドの値を保持したいと考えています。
コレクション B を情報コレクションにマージする場合:
- コレクション B のフィールドのサブセットで条件付きで上書きしたい
- キーが存在する場合、他のフィールドの値を保持します。
現在、私は次のことを試しています:
- 均一な値を出力するソース コレクションごとに map 関数があります。発行された値には、それがどのコレクションからのものかを示す「ソース」フィールドがあります。
- 私は単一のreduce関数を持っています。最初に行うことは、uniform 値のように構造化されたオブジェクトを作成することです。
- ソース フィールドを 'final' に設定し、既存のキーを示すファイナライズ関数があります。
- reduce 関数はソース値をチェックし、使用するロジックを識別しようとします。Collection A の場合は合計、B の場合は置換、Final の場合はマージ ロジックに従おうとします。
- reduce オプションを使用して mapReduce を実行し、キーを更新します。
問題
最近、ファイナライズが複数回呼び出されることに気付きました。これにより、reduce でどのロジックを適用する必要があるかを識別する能力が失われます。
ソース コレクションに基づいて条件付きロジックを適用するにはどうすればよいですか?