2

訪問者を保存および追跡するアプリケーションがあります。これらの訪問者は、訪問を設定するときに、必要に応じてスケジューラ (ユーザー) によってシステムで作成されます。問題は、ほとんどの場合、訪問者の重要な一意の識別子は次のとおりであることです。

  • ファーストネーム
  • 苗字
  • 会社名

同じ人物のレコードが重複して存在するリスクはつきものです。スケジューラは、その名前で存在する人物をシステムで検索する代わりに、新しい訪問者レコードを入力することがあります。

同じ名前の訪問者に誰かが入ってくるのに遭遇すると、この人物が誰であるかについてさまざまな提案を含む警告ダイアログを表示しますが、それでも十分ではありません。

「Jim Jones」と入力すると、この人物は「James Jones」または「Jimmy Jones」としてシステムに存在する可能性があります。利用可能な名前認識ソフトウェア パッケージがあるようですが、それらは高価であり、私が探しているものよりも確かに重いです。

潜在的な名前のバリエーションを見つけるためにプログラムでアクセスできる無料またはオープンソースの辞書ファイルの場所を誰か知っていますか? ソフトウェアやオンライン サービスもいいですが、データ ダンプや単純なテキスト ファイルでもいいかもしれません。

これでも訪問者レコードの重複を防ぐことはできませんが、それを最小限に抑えようとしているだけなので、重要な機能ではありません.

4

1 に答える 1

2

一般的な姓名については、Moby プロジェクト (http://icon.shef.ac.uk/Moby/mwords.html) を参照してください。metaphone や soundex などのツールを使用して類似の名前を事前計算し、それを使用して潜在的な一致を特定できます。また、多くのもので構成されている可能性があるため、管理が少し難しい会社名についても言及しています。その場合は、12 辞書の単語リスト (http://wordlist.sourceforge.net/) の 2+2lemma を確認してください。そのパッケージで提供されるリストは、改善された結果を提供する類似のスペル ソリューションと組み合わせて使用​​できる共通のルートを共有する複数のフォームを提供します。

于 2011-05-06T12:48:02.590 に答える