3

私たちは、すべてのバリエーションで来る雇用者のユーザー生成名を持っています。たとえば、ユーザーは次のように入力またはインポートしました。

Google
Google、Inc.
Google Inc. Google
Inc.

これをデータベース検索すると、まるで別の会社のように見えます。各雇用主を「正規化された」名前にマッピングするようにいくつかの変更を加えましたが、合計で70,000になると、手作業で行うのが難しくなります。

既存のエントリを正規化する方法、およびすべての着信名に対してもそれを維持する方法について誰かが提案を持っていますか?

4

1 に答える 1

3

あなたが助けるためにあなたがすることができる2つのことがあります:

  • ユーザーが会社名を追加するときは、オートコンプリートボックスを指定して、既に存在する場合は候補を取得できるようにします。または、質問を追加するときに、stackoverflowのような既存のものを提案します。

  • データベースにクエリを実行するときに検索ツールを使用して、すべてのバリエーションを要約できるようにします。ここで検索ジェムを見つけることができますhttps://www.ruby-toolbox.com/categories/rails_search

事後にそれらを「正規化」するのは簡単でも正確でもないと思います。

于 2011-11-02T02:29:27.767 に答える