Anemoneを使用してドメインをスパイダーしていますが、正常に動作します。
クロールを開始するコードは次のようになります。
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.url
end
end
これは、次のようにドメインのすべてのページ URL を非常にうまく出力します。
http://www.example.com/
http://www.example.com/about
http://www.example.com/articles
http://www.example.com/articles/article_01
http://www.example.com/contact
私がやりたいことは、キーの URL の最後の部分と、値の URL「ドメインを引いたもの」を使用して、キーと値のペアの配列を作成することです。
例えば
[
['','/'],
['about','/about'],
['articles','/articles'],
['article_01','/articles/article_01']
]
これが初歩的なものである場合は申し訳ありませんが、私はRuby初心者です。