html-parsing - Jsoup 解析リンク

Question

jsoup を使用して、html からリンクを抽出したい

期待される出力: 絶対リンク。

そのために「abs:href」を使用します。

これは機能します：

Jsoup.parse("<a \n\r\t  href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

これは機能しません:

Jsoup.parse("<a \n\r\t  href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

「www.ibm.com」が絶対リンクか相対リンクかを知るのはちょっと難しいことは知っています。これはトップレベルドメインである可能性がありますが、フォルダー名でもあります。実績のあるソリューションはありますか? このハックだけが頭に浮かびます：

String domain = url.replace("http://", "");
url.replace(domain + domain, domain);

score 0 · Accepted Answer

2 番目の例は、明確に相対 URLです。絶対 URL は、定義上、プロトコル (http や https など) で始まります。すべてのブラウザーは、例に対して同じ出力を提供します。

使用している URL の例を教えてください。これらの疑似絶対 URL があるのはなぜですか?

1 に答える 1