1

名前と姓の 200k 以上のレコードを含む大きな MongoDB データベースがあります。

挿入前にすべての 200k+ レコードのレビンスタイン距離を計算し、衝突を回避するためにゴミ箱よりも高い場合にのみ挿入する場合、新しいレコードを追加する手順を最適化するにはどうすればよいですか (これは、新しいレコードの名前と姓を意味します)若干の翻訳ミスによりレコードが若干異なる場合がありますが、それでも同一人物です)。

人に関するデータはさまざまなソースから取得されるため、同じ人の情報が重複してデータベースに散らばらないようにしてください。

4

0 に答える 0