0

私はExcelに2つのデータベースを持っています。データベースAには、さまざまな企業、都市、慈善団体の名前があります。データベースBは同じです。ただし、データベースBは顧客によって記入されます。そのため、氏名にランダムな間違いやバリエーションがたくさんあります。

名前を一致させるための最良の方法は何ですか?

サンプルの違いは次のとおりです。

  1. ABC市はABC市の法人として表示される場合があります
  2. ABCコーポレーションはABCcorporationと同じように立ち上がるかもしれません(彼らはスペースを忘れていました)
  3. ABC大学はABC大学と略記される場合があります
  4. CanadianTireはCanadianTireStore#503として表示される場合があります
  5. カナディアンタイヤはカナディアンタイヤのようにスペルが間違っている可能性があります
  6. ABCCorpはABCIncとして表示される場合があります

これに対する良い解決策はありますか?この質問は少し遠慮がちですが、これができれば、毎年数千時間のように会社の人々を救うことができます...

どんなアドバイスも大歓迎です

4

2 に答える 2

2

これは非常に複雑な問題です。「マスターデータ管理」と「重複排除」を調べてください。このウィキペディアの記事は良い出発点です。

問題は、小さなチャンクで解決するのが最適です。私の推奨事項は、少し調べて、潜在的な重複を一覧表示するツールとそれらをマージする簡単な方法を実装することです。ここでのキーワードは潜在的です。間違ったマージを行いたくない場合、誤検出は非常に可能性が高く、非常に有害です。

于 2012-10-23T20:31:56.723 に答える
0

正規表現を使用して、これらのデータベースをフィルタリングできます。

http://en.wikipedia.org/wiki/Regular_expression

http://www.zytrax.com/tech/web/regex.htm

会社名の関連部分に基づいてプログラム パターン マッチを行うことができます。たとえば、誰かが Microsoft Corporation of Redmond を入力し、プログラム パターンが 'Microsoft' と一致した場合、ヒットします。

于 2012-10-23T19:02:57.710 に答える