python - Scrapy を Mysql と組み合わせて使用するにはどうすればよいですか?

Question

いくつかの開始 URL を指定して、すべての要素を抽出し、それらをたどって内部のテキストを抽出する Web クローラーを作成しようとしています。クエリ文字列を指定すると、Mysql db に以前に保存されたすべてのアイテムを返す Django アプリケーションを実行しています。私の意見では、最良の選択肢は Scrapy を使用し、ページ内のすべての URL を抽出するだけで他の URL を見つける開始 URL をいくつか提供し、それらをたどってそれらのページのコンテンツを抽出することです。

以前に抽出したデータをMysql dbに挿入することは可能ですか?(scrapy.orgでこれに関する情報が見つからなかったため)?
スキャンの「深さ」を決定する組み込み関数はありますか?

score 1 · Accepted Answer

私はすべてのスクレイピードキュメントを読むだけです.これを行うためのより良い方法があるかもしれませんが、アイテムパイプラインではそこにデータを保存しました. 処理されたアイテムごとに、それがすでに mysql にあるかどうかを確認し、そうでない場合は保存してください! http://doc.scrapy.org/en/latest/topics/item-pipeline.html

「深さ」を読み取るには: DepthMiddlewareを使用します。のようなリクエストオブジェクトから読み取ることができますrequest.meta['depth']。

python - Scrapy を Mysql と組み合わせて使用​​するにはどうすればよいですか?

1 に答える 1

Related

Reference

python - Scrapy を Mysql と組み合わせて使用するにはどうすればよいですか?