多くのサイトから取得され、個々のサイトのAPIを介して収集された製品の詳細を格納するデータベースがあります。フィードを呼び出すと、詳細がデータベーステーブルに保存されます。
私が抱えている問題は、まったく同じ商品が売り手によって多くのサイトにリストされているため、データベースに重複したアイテムがあり、それらをWebページに表示すると多くの重複があることです。
問題は、アイテムに明確な一意の識別子がなく、アイテムの特定の詳細(多くの場合があります)があり、次に販売者からのアイテムの説明があることです。
私が欲しいのは、アイテムが一度表示されてから、アイテムがリストされている他の場所の詳細をユーザーに提供することです。
データベース全体の速度を低下させることなく、入ってくる重複をどのように識別しますか?次に、すべての複製から1つの広告を選択し、その広告が表示されている他のサイトを保存するにはどうすればよいでしょうか。
助けてくれてありがとう。