ユーザーから、姓、名、性別、生年月日を含む Facebook の友達のリストを収集します。次に、その名前のデータベース (MySQL にテーブルとして保存されている) を、同様の情報で構成される別のデータベースと比較しようとしています。
2 番目のデータベースがはるかに大きなレコード セット (>500k 行) である場合に、これらの結果を概念的にリンクする最良の方法は何でしょうか?
これが私が提案していたものです:
- Facebook の名前を繰り返す
- 最後 + 生年月日を検索 - 一致する場合は、「信頼できる」一致とみなします
- 最後 + 最初に検索 - 一致する場合は、「可能性の高い」一致と見なします
- Last + Lichtenstein(First) を特定のレベルより上で検索し、「可能な」一致を想定します
これをシーケンシャルな mySQL アプローチよりも高速にする可能性のある、私が見逃している分散コンピューティングの概念はありますか? 記録を見逃すよりも偽陽性を出さない方がはるかに重要であることに注意して、他にどのような落とし穴が発生する可能性がありますか?