約17000行に部分的に重複して冗長なデータを含む7つのMySQLテーブルがあります。すべての表には、学校の名前と住所が含まれています。同じ学校がわずかに異なる名前のテーブルに複製されることもあれば、同じ学校が複数のテーブルに表示されることもありますが、名前や住所にわずかな違いがあります。
私のタスクは、7つのテーブルからのデータを含むID、名前、および町/都市IDフィールドを持つ単一のテーブルを作成することです。IDと名前のフィールドを持つ町用の別のテーブルがあります。
これは、元のテーブルに都市の個別のフィールドがないという事実によって複雑になっています。これは、大きく異なる形式のデータを持つアドレスフィールドから抽出する必要があります。
私はこれのほとんどが手動で行われなければならないことを理解しています、私は私の魂を固めました、そして私はこれが私にもたらす生きている地獄に対処する準備ができています。私の質問は次のとおりです。
- どのようにそのようなタスクを開始しますか?それを可能な限り自動化するためのインテリジェントな戦略は何でしょうか?
- これを高速化できるツールはありますか?文字列を比較し、それらの「類似性」を判断し、重複の可能性を示唆できるもののように?
ありがとう!