いくつかの開始 URL を指定して、すべての要素を抽出し、それらをたどって内部のテキストを抽出する Web クローラーを作成しようとしています。クエリ文字列を指定すると、Mysql db に以前に保存されたすべてのアイテムを返す Django アプリケーションを実行しています。私の意見では、最良の選択肢は Scrapy を使用し、ページ内のすべての URL を抽出するだけで他の URL を見つける開始 URL をいくつか提供し、それらをたどってそれらのページのコンテンツを抽出することです。
- 以前に抽出したデータをMysql dbに挿入することは可能ですか?(scrapy.orgでこれに関する情報が見つからなかったため)?
- スキャンの「深さ」を決定する組み込み関数はありますか?