この 1 か月間、私は開始した Web クロール プロジェクトに Scrapy を使用してきました。
このプロジェクトでは、ホームページから到達可能な単一のドメイン名に含まれるすべての Web ページの完全なドキュメント コンテンツを取得します。Scrapy を使用してこれを記述するのは非常に簡単でしたが、単純に実行速度が遅すぎます。2 ~ 3 日で 100,000 ページしかプルダウンできません。
Scrapy はこの種のクロールには適していないという私の最初の考えが明らかになりつつあることに気付きました。
より良いパフォーマンスを期待して、Nutch とMetabotに照準を合わせ始めました。クロール中に保存する必要がある唯一のデータは、Web ページの完全なコンテンツと、できればページ上のすべてのリンクです (ただし、後処理で行うこともできます)。
高速で多くの並列リクエストを使用するクローラーを探しています。