0

いくつかの開始 URL を指定して、すべての要素を抽出し、それらをたどって内部のテキストを抽出する Web クローラーを作成しようとしています。クエリ文字列を指定すると、Mysql db に以前に保存されたすべてのアイテムを返す Django アプリケーションを実行しています。私の意見では、最良の選択肢は Scrapy を使用し、ページ内のすべての URL を抽出するだけで他の URL を見つける開始 URL をいくつか提供し、それらをたどってそれらのページのコンテンツを抽出することです。

  1. 以前に抽出したデータをMysql dbに挿入することは可能ですか?(scrapy.orgでこれに関する情報が見つからなかったため)?
  2. スキャンの「深さ」を決定する組み込み関数はありますか?
4

1 に答える 1

1

私はすべてのスクレイピードキュメントを読むだけです.これを行うためのより良い方法があるかもしれませんが、アイテムパイプラインではそこにデータを保存しました. 処理されたアイテムごとに、それがすでに mysql にあるかどうかを確認し、そうでない場合は保存してください! http://doc.scrapy.org/en/latest/topics/item-pipeline.html

「深さ」を読み取るには: DepthMiddlewareを使用します。のようなリクエストオブジェクトから読み取ることができますrequest.meta['depth']

于 2012-04-10T13:24:43.543 に答える