ruby-on-rails - Rails の Web クローラー、サイトのすべてのページをクロールする方法

Question

特定のドメインのすべてのページからすべての URL を取得する必要があります。バックグラウンドジョブを使用し、クモの巣を使用しようとする
複数のキューにそれらを配置するのは理にかなっていると思いますが、非常に紛らわしい宝石のようです。 anomone 、 anemone は長い間機能していますページ数が多い場合

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

何が私に一番合うと思いますか?

score 2 · Accepted Answer

NutchCrawlerを使用できます。Apache Nutchは、拡張性とスケーラビリティに優れたオープンソースの Web クローラーソフトウェアプロジェクトです。

ruby-on-rails - Rails の Web クローラー、サイトのすべてのページをクロールする方法

1 に答える 1

Related

Reference