Scrapy を使用して、Web サイトから製品 (製品名と製造元) に関するデータをスクレイピングしています。次に、パイプライン ( http://github.com/noplay/scrapy-elasticsearch ) を使用して、データを Elasticsearch 検索エンジンに直接インデックス付けします。また、メーカーとその評判に関するデータを提供する別のサイト (API または Scrapy を使用) からデータをスクレイピングしたいと思います (たとえば、上位 250 のメーカーの単純なランキング)。したがって、Elasticsearch インデックスでは、サンプル ドキュメントに次のフィールドが含まれる場合があります。
product name: ifruit 7 (scraped from site A)
product manufacturer: pear (scraped from site A and site B)
manufacturer ranking: 17 (scraped from site B)
Elasticsearch インデックスに各ドキュメントが製品名、メーカー、製品ランキングに関する情報とともに保存されるように、スクレイピングされたデータを組み合わせる最も簡単な方法は何ですか? スクレイピング プロセス内でデータをマージしてみたり、2 つの JSON ファイルを結合したり、パイプラインを調整したり、Elasticsearch ですべてのインデックスが作成されたらデータをいじったりするのが最善ですか? または、より良い解決策はありますか?
2 つのデータ セットでも、製造元のスペルや言い回しが異なる可能性があります。この問題はどのように克服されますか?