python - 複数の Web サイトからデータをスクレイピングし、Elasticsearch でデータをマージしてインデックスを作成する

Question

Scrapy を使用して、Web サイトから製品 (製品名と製造元) に関するデータをスクレイピングしています。次に、パイプライン ( http://github.com/noplay/scrapy-elasticsearch ) を使用して、データを Elasticsearch 検索エンジンに直接インデックス付けします。また、メーカーとその評判に関するデータを提供する別のサイト (API または Scrapy を使用) からデータをスクレイピングしたいと思います (たとえば、上位 250 のメーカーの単純なランキング)。したがって、Elasticsearch インデックスでは、サンプルドキュメントに次のフィールドが含まれる場合があります。

product name: ifruit 7 (scraped from site A)
product manufacturer: pear (scraped from site A and site B)
manufacturer ranking: 17 (scraped from site B)

Elasticsearch インデックスに各ドキュメントが製品名、メーカー、製品ランキングに関する情報とともに保存されるように、スクレイピングされたデータを組み合わせる最も簡単な方法は何ですか? スクレイピングプロセス内でデータをマージしてみたり、2 つの JSON ファイルを結合したり、パイプラインを調整したり、Elasticsearch ですべてのインデックスが作成されたらデータをいじったりするのが最善ですか? または、より良い解決策はありますか？

2 つのデータセットでも、製造元のスペルや言い回しが異なる可能性があります。この問題はどのように克服されますか？

python - 複数の Web サイトからデータをスクレイピングし、Elasticsearch でデータをマージしてインデックスを作成する

0 に答える 0

Related

Reference