大量のデータ スクレイピングを実行する必要があるプロジェクトがあります。
私はこれまで非常に感銘を受けたScrapyを見てきましたが、次のことを行うための最良のアプローチを探しています:
1) 複数の URL をスクレイピングし、スクレイピングする URL ごとに同じ変数を渡したいとします。たとえば、Bing、Google、および Yahoo からキーワード「python」の上位の結果を返したいとします。
http://www.google.co.uk/q=python
、http://www.yahoo.com?q=python
およびhttp://www.bing.com/?q=python
(実際のURLではありませんが、アイデアはわかります)
キーワードを使用して動的 URL を指定する方法が見つかりません。考えられる唯一のオプションは、PHP またはその他で URL を構築するファイルを生成し、scrapy を指定して URL 内のリンクをクロールすることです。
2) 明らかに、各検索エンジンには独自のマークアップがあるため、各結果を区別して、関連データを抽出する対応する XPath を見つける必要があります。
3) 最後に、スクレイピングされたアイテムの結果をデータベース (おそらく redis) に書き込みたいと思いますが、3 つの URL すべてのスクレイピングが完了した場合にのみ、基本的に 3 つの検索エンジンから「プロファイル」を構築したいと考えています。出力結果を 1 回のトランザクションで保存します。
誰かがこれらの点について何か考えを持っているなら、私は非常に感謝しています.
ありがとうございました