コンセンサスとの違いを特定するために、複数のデータセットを調整しようとしています。それぞれにおそらく 30,000 レコードの同じデータが 100 セット存在する可能性があります。各セットには同じ列がありますが、同じ行がない場合があります。つまり、Person1 のレコードは 1 つのセットにのみ存在する場合もあれば、すべてのセットに存在する場合もあります。異なるレコードのみを特定し、その違いを報告したいと考えています。おそらく例を挙げたほうが簡単でしょう。
セット1:
セット 2:
セット3:
Set1 の Person2 の給与がコンセンサスとは異なることを報告したいと思います (Set2 と Set3 は 250000 ですが、Set1 は 200000 です)。Person1 または Person 3 については、すべてのセットが同一の情報を持っているため、何も報告されません。
これを行うのに最適なテクノロジーは何ですか? SQL ステートメントを含むリレーショナル データベース? ある種のベクターDB?ハドゥープ?統計ソフト?
前もって感謝します、
ロビン