python - スクレイピーの使い方

Question

Scrapy に基づいてクローラーを開始する方法を知りたいです。apt-get install でツールをインストールし、例を実行しようとしました:

/usr/share/doc/scrapy/examples/googledir/googledir$ スクレイピー リスト
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ スクレイピー クロール

Spiders/google_directory.py からコードをハッキングしましたが、挿入したプリントが表示されないため、実行されていないようです。彼らのドキュメントを読みましたが、これに関連するものは何も見つかりませんでした。あなたはなにか考えはありますか？

また、ウェブサイトをクロールするために他のツールを使用する必要があると思われる場合は、お知らせください。私は Python ツールの経験がなく、Python は必須です。

ありがとう！

score 7 · Accepted Answer

EveryBlock.comは、スタックとして lxml、urllib2、および Django を使用した高品質のスクレイピングコードをリリースしました。

Scraperwiki.comは刺激的で、python スクレイパーの例がたくさんあります。

cssselect を使用した簡単な例:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]

score 7 · Accepted Answer

クロールコマンドにスパイダー名がありませんでした。使用する：

$ scrapy crawl directory.google.com

また、ディレクトリで作業するのではなく、サンプルプロジェクトを自宅にコピーすることをお勧めします。これにより、プロジェクトを/usr/share/doc/scrapy/examples/変更して操作することができます。

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

2 に答える 2