2

私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。

すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。

これどうやってするの?

4

1 に答える 1

4

アネモネにはskip_links_likeメソッドがあります:

skip_links_like(*patterns)
従うべきではない URL の正規表現パターンを 1 つ以上追加します

したがって、次のようなものを追加します

skip_links_like /\/account\//

それを世話する必要があります:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end
于 2011-09-06T16:38:10.523 に答える