data-structures - 複数のデータセットの調整

Question

コンセンサスとの違いを特定するために、複数のデータセットを調整しようとしています。それぞれにおそらく 30,000 レコードの同じデータが 100 セット存在する可能性があります。各セットには同じ列がありますが、同じ行がない場合があります。つまり、Person1 のレコードは 1 つのセットにのみ存在する場合もあれば、すべてのセットに存在する場合もあります。異なるレコードのみを特定し、その違いを報告したいと考えています。おそらく例を挙げたほうが簡単でしょう。

セット1:

人性別生年月日給与等

Person1 M 12/12/2000 100000 など

Person2 F 11/11/1999 200000 など

セット 2:

人性別生年月日給与等

Person2 F 11/11/1999 250000 など

Person3 M 1998 年 10 月 10 日 150000 など

セット3:

人性別生年月日給与等

Person1 M 12/12/2000 100000 など

Person2 F 11/11/1999 250000 など

Person3 M 1998 年 10 月 10 日 150000 など

Set1 の Person2 の給与がコンセンサスとは異なることを報告したいと思います (Set2 と Set3 は 250000 ですが、Set1 は 200000 です)。Person1 または Person 3 については、すべてのセットが同一の情報を持っているため、何も報告されません。

これを行うのに最適なテクノロジーは何ですか? SQL ステートメントを含むリレーショナルデータベース? ある種のベクターDB？ハドゥープ？統計ソフト？

前もって感謝します、

ロビン

data-structures - 複数のデータセットの調整

0 に答える 0

Related

Reference