複数の製品カタログをマージ (および重複排除)するための戦略を考えています。
SQL を使用しないデータベースを使用し、部分的に重複する製品のN 個のカタログを照会する必要があります。
分類、タグ、説明などの特定の側面を正規化する必要があり、どのカタログに各固有のアイテムが含まれているかを追跡する必要があります (たとえば、UPC による各カタログ内の製品の重複排除)。
私の現在の考えは、個々のカタログを独自のテーブルにインポートし、自己構築したアルゴリズムを使用して「類似」アイテムを識別し、正規化を実行してから、正規化および重複排除されたデータを含む最終的な「マスター」テーブルを作成することです - (マスターレコードの値は、選択されたカタログまたはカタログの組み合わせからコピーされ、そのアイテムを含むカタログへのリンクが含まれます)。
この件に関して他にどんな考えがあるのだろうか?自分自身をよりよく教育するために、どの研究分野を調べる必要がありますか?