検索とマッチングの問題があります:
入力
私のデータベースには、何千もの名前があり、その他の一致する特徴もあります。数列の数値データと、この特定の会社を識別するのに役立つ他のテキストの数列です。
見込み顧客には約 500 の会社名があり、それぞれの名前について上記のように追加の特性がまばらに入力されています。
現在のプロセス
以前は、このプロセスは手作業でした。データベースを検索し、私に報告されたものと「似た」名前を見つけて、追加の特徴が一致することを確認することで、クライアントから提供された各名前を一致させようとしました。ただし、主な問題は、報告された名前が同じではなく、多くの場合、略語が含まれているか、データベースに保存されている名前の一部のみが含まれている可能性があり、追加の特徴も不完全であるか部分的にしか一致しない可能性があることです.
オートメーション
このプロセスは頻繁に発生するため、自動化したいと考えています。最適なソリューションは、顧客リストから 1 つの会社を入力し、その会社が入力した追加の特性を入力し、データベースで上位 5 つの一致を見つけようとすることです。
私は Lucene や Sphinx を使用したことはありませんが、ドキュメント駆動型のようです。これらのライブラリがこの問題に対して機能するようにこれらの入力をフォーマットする方法はありますか、または代わりに機能する他のソフトウェアツールはありますか?