1

jsoup を使用して、html からリンクを抽出したい

期待される出力: 絶対リンク。

そのために「abs:href」を使用します。

これは機能します:

Jsoup.parse("<a \n\r\t  href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

配信: http://www.ibm.com/123/?id=abc

これは機能しません:

Jsoup.parse("<a \n\r\t  href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

配信: http://www.ibm.com/www.ibm.com/123/?id=abc

「www.ibm.com」が絶対リンクか相対リンクかを知るのはちょっと難しいことは知っています。これはトップ レベル ドメインである可能性がありますが、フォルダー名でもあります。実績のあるソリューションはありますか? このハックだけが頭に浮かびます:

String domain = url.replace("http://", "");
url.replace(domain + domain, domain);
4

1 に答える 1

0

2 番目の例は、明確に相対 URLです。絶対 URL は、定義上、プロトコル (http や https など) で始まります。すべてのブラウザーは、例に対して同じ出力を提供します。

使用している URL の例を教えてください。これらの疑似絶対 URL があるのはなぜですか?

于 2012-12-17T05:52:59.747 に答える