私の部門は、データマイニング/企業ダッシュボードで使用するために、企業内のさまざまなソースからのデータの収集と表示を処理します。
私たちが抱える大きな課題の1つは、さまざまな部門間で場所の名前を相互参照することです。私たちはかなり大規模な組織であり、さまざまな関心を持つ部門が1つの場所について独自のレポートを作成します。一般に、場所の名前がこれらの部門全体のレポートで持つ正確な名前には、多くの不一致があります。たとえば、場所は次のように呼ばれる場合があります。
- 素晴らしいレストラン
- 素晴らしいレストラン
- 素晴らしいF&B
- 場所がいくつかの改修を経るとき...素晴らしいカフェ '
- またはProfitCenter12345ABC
だから私の質問は、私たち自身のデータベースとコードでこれらの名前を調整する際にどのようなベストプラクティスが存在するのかということです。今のところ、私の部門には、共通の階層標準(最適なソリューション)の下で組織を統合する機能がないと仮定しましょう。現在のところ、私たちの慣習は、場所名の増え続ける参照テーブルを維持することです。これらの参照テーブルは、その後、独自の命名基準に参照されます。これにより、データとの履歴の一貫性を維持できます。
場所を相互参照するときに、ある種の「あいまい検索」を実装することは実行可能/推奨されますか?たとえば、「the」などの単語のインスタンスを無視したり、「cafe」と「restaurant」を同等に扱ったりするもの(事前に定義されたロジックに基づく)。
私は確かに、私たちが遭遇するランダムな命名規則のすべてをアルゴリズムで説明できるとは思いませんが、それらの一部/ほとんどを説明できるのに十分ですか?