0

特定のドメインのすべてのページからすべての URL を取得する必要があります。バックグラウンド ジョブを使用し、クモの巣 を使用しようとする
複数のキューにそれらを配置するのは理にかなっていると思いますが、非常に紛らわしい宝石のようです。 anomone anemone は長い間機能していますページ数が多い場合


require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

何が私に一番合うと思いますか?

4

1 に答える 1

2

NutchCrawlerを使用できます。Apache Nutchは、拡張性とスケーラビリティに優れたオープン ソースの Web クローラー ソフトウェア プロジェクトです。

于 2013-10-11T13:19:11.450 に答える