認証が必要な Web ページをクロールしようとしています。ログインすると、JSoup http://jsoup.org/ライブラリを使用して HTML ページを解析し、ブラウザでそのページにアクセスできます。
public static void main(String[] args) throws IOException {
// need http protocol
Document doc = Jsoup.connect("http://www.secinfo.com/$/SEC/Filing.asp?T=r643.91Dx_2nx").get();
// get page title
String title = doc.title();
System.out.println("title : " + title);
// get all links
Elements links = doc.select("a");
for (Element link : links) {
// get the value from href attribute
System.out.println("\nlink : " + link.attr("href"));
}
System.out.println();
}
出力:
title : SEC Info - Sign In
これは、私が渡している実際の URL ではなく、サインイン ページのコンテンツを取得しています。私は secinfo.com に登録しており、このプログラムを実行している間、デフォルトのブラウザー Firefox からログインしています。