3

私のプロジェクトでは、チームによって手動で作成されたフラットな Excel ファイルから 50 万行以上のデータのかなりのコレクションをインポートしています。ここでの問題は、クライアント検索のために、すべてを正規化する必要があることです。たとえば、会社フィールドには複数の会社のスペルがあり、「IBM」の次に「IBM Inc.」などの支店が含まれます。また、「A46-Rhizonme Pentahol」など、SOUNDEXだけでは扱えない英数字の商品名もあります。

AJAX auto-suggestを使用して、すべてのデータ入力を Web フォームから行うことで、長期的に問題を解決できます。ただし、それまでは、既存のデータの膨大なコレクションに対処する必要があります。これは、私がここで読んだことに基づいて、良いプロセスであると私が信じるものに私を導きます:

http://msdn.microsoft.com/en-us/magazine/cc163731.aspx

カスタムのファジー ロジック ルックアップとファジー ロジックのグループ化を作成する手順

  1. リスト項目
  2. 文字列をキーワードにトークン化する
  3. キーワード TF-IDF の計算 (合計頻度 - 逆ドキュメント頻度)
  4. キーワード間のレーベンシュタイン距離を計算する
  5. 利用可能なアルファ文字列でSoundexを計算する
  6. キーワードのコンテキストを決定する
  7. コンテキストに基づいて、「会社」、「製品」、「成分」などの個別の DB テーブルにキーワードを配置します。

私はグーグルで、StackOverflow を検索し、MySQL.com のディスカッションなどを読んで、この問題について事前に構築されたソリューションを見つけようとしました。何か案は?

4

2 に答える 2

2

Google Refineをチェックしてください。

Google Refine は、乱雑なデータの処理、クリーンアップ、ある形式から別の形式への変換、Web サービスによる拡張、Freebase などのデータベースへのリンクを行うための強力なツールです。

于 2011-12-15T21:23:56.197 に答える