次のことを行うjsoupを使用してクラスを作成しています。
- コンストラクターは、URLへの接続を開きます。
- ページの状態を確認する方法があります。つまり、200、404など。
- ページを解析してURLのリストを返すメソッドがあります。#
以下は、私がやろうとしていることの大まかな作業です。私がさまざまなことを試みてきたので、それほど大まかな作業ではありません。
public class ParsePage {
private String path;
Connection.Response response = null;
private ParsePage(String langLocale){
try {
response = Jsoup.connect(path)
.userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.timeout(10000)
.execute();
} catch (IOException e) {
System.out.println("io - "+e);
}
}
public int getSitemapStatus(){
int statusCode = response.statusCode();
return statusCode;
}
public ArrayList<String> getUrls(){
ArrayList<String> urls = new ArrayList<String>();
}
}
ご覧のとおり、ページステータスを取得できますが、コンストラクターから既に開いている接続を使用して、ドキュメントを解析する方法がわからないため、次を使用してみました。
Document doc = connection.get();
しかし、それはダメです。助言がありますか?またはこれについて行くためのより良い方法は?