3

Scrapy に基づいてクローラーを開始する方法を知りたいです。apt-get install でツールをインストールし、例を実行しようとしました:

/usr/share/doc/scrapy/examples/googledir/googledir$ スクレイピー リスト
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ スクレイピー クロール

Spiders/google_directory.py からコードをハッキングしましたが、挿入したプリントが表示されないため、実行されていないようです。彼らのドキュメントを読みましたが、これに関連するものは何も見つかりませんでした。あなたはなにか考えはありますか?

また、ウェブサイトをクロールするために他のツールを使用する必要があると思われる場合は、お知らせください。私は Python ツールの経験がなく、Python は必須です。

ありがとう!

4

2 に答える 2

7

EveryBlock.comは、スタックとして lxml、urllib2、および Django を使用した高品質のスクレイピング コードをリリースしました。

Scraperwiki.comは刺激的で、python スクレイパーの例がたくさんあります。

cssselect を使用した簡単な例:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
于 2010-09-22T22:35:19.960 に答える
7

クロール コマンドにスパイダー名がありませんでした。使用する:

$ scrapy crawl directory.google.com

また、ディレクトリで作業するのではなく、サンプル プロジェクトを自宅にコピーすることをお勧めします。これにより、プロジェクトを/usr/share/doc/scrapy/examples/変更して操作することができます。

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
于 2010-09-23T03:36:50.597 に答える