1

私はさまざまなクローラーを検索して調べてきました。しかし、私はどちらと一緒に行くべきかよくわかりません。

私の目標は、完全なドメイン、つまりhttp://www.example.comすべてのサブサイトhttp://www.example.com/page1 を検索することです。その後、さまざまなタグ、特に画像タグを検索してソースを見つけることができます。

これまでのところ、私の目に留まったクローラーは 1 つだけです。

スープ

何か考えはありますか?

4

1 に答える 1

2

私は間違っているかもしれませんが、あなたはクローラーだけでなく HTML アナライザー (html タグを理解するもの) を求めています...

その場合は、JSoup を使用するか、正規表現で解析することもできます。

本当にクローラーが必要な場合は、Nutchがオープン ソース クローラーの子孫であることに気付くかもしれません。

お役に立てれば

于 2013-08-05T12:37:33.590 に答える