jsoup を使用して、html からリンクを抽出したい
期待される出力: 絶対リンク。
そのために「abs:href」を使用します。
これは機能します:
Jsoup.parse("<a \n\r\t href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
配信: http://www.ibm.com/123/?id=abc
これは機能しません:
Jsoup.parse("<a \n\r\t href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
配信: http://www.ibm.com/www.ibm.com/123/?id=abc
「www.ibm.com」が絶対リンクか相対リンクかを知るのはちょっと難しいことは知っています。これはトップ レベル ドメインである可能性がありますが、フォルダー名でもあります。実績のあるソリューションはありますか? このハックだけが頭に浮かびます:
String domain = url.replace("http://", "");
url.replace(domain + domain, domain);