反復プロセスで数十テラバイトの大量のデータをフィルタリングする必要があるという問題があります。サイズが大きいため、データをネットワーク経由で再転送する必要がないように、2 つの連続したマップ フェーズで計算を行いたいと考えています。
したがって、アルゴリズムのステップは、1) すべてのデータを分析して決定を下し、2) 同じデータを再実行し、1 の決定に基づいてフィルタリング プロセスを実行します。
これを解決するには 2 つの方法があると思いますが、それぞれに大きな問題があるようです。
1) ソリューション、ChainMapper。問題: 2 番目のマッパーが開始する前に、最初のマッパーが完全に完了する必要があります。
2) ソリューション、2 つのジョブ。問題: ジョブ間でデータが削除されると、ネットワークを介してデータが再転送されます。
私は何かが欠けていると確信していますが、本当に助けが必要です!
ありがとう