私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。
すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。
これどうやってするの?
私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。
すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。
これどうやってするの?
アネモネにはskip_links_like
メソッドがあります:
skip_links_like(*patterns)
従うべきではない URL の正規表現パターンを 1 つ以上追加します
したがって、次のようなものを追加します
skip_links_like /\/account\//
それを世話する必要があります:
Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
anemone.skip_links_like /\/account\//
#...
end