私はさまざまなクローラーを検索して調べてきました。しかし、私はどちらと一緒に行くべきかよくわかりません。
私の目標は、完全なドメイン、つまりhttp://www.example.com
すべてのサブサイトhttp://www.example.com/page1
を検索することです。その後、さまざまなタグ、特に画像タグを検索してソースを見つけることができます。
これまでのところ、私の目に留まったクローラーは 1 つだけです。
何か考えはありますか?
私はさまざまなクローラーを検索して調べてきました。しかし、私はどちらと一緒に行くべきかよくわかりません。
私の目標は、完全なドメイン、つまりhttp://www.example.com
すべてのサブサイトhttp://www.example.com/page1
を検索することです。その後、さまざまなタグ、特に画像タグを検索してソースを見つけることができます。
これまでのところ、私の目に留まったクローラーは 1 つだけです。
何か考えはありますか?
私は間違っているかもしれませんが、あなたはクローラーだけでなく HTML アナライザー (html タグを理解するもの) を求めています...
その場合は、JSoup を使用するか、正規表現で解析することもできます。
本当にクローラーが必要な場合は、Nutchがオープン ソース クローラーの子孫であることに気付くかもしれません。
お役に立てれば