java - jsoup を使用して Web ページのすべての段落から完全な URL を抽出する方法

Question

jsoup を使用して Web ページのすべての段落から完全な URL を抽出するにはどうすればよいですか? 相対 URL のみを抽出できます。

期待される： http://fr.wikipedia.org/wiki/Husni_al-Zaim

実際： /Husni_al-Zaim

私のコード:

    Elements links = doc.select("p");
    Elements linkss = links.select("a");

    for (Element link : linkss) {
        if (link.text().matches("^[A-Z].+") == true) {
            list.add(new NamedLink(link.attr("href"), link.text()));
        }
    }

score 1 · Accepted Answer

.absUrl("href")の代わりに使用し.attr("href")ます。これは、Webページからドキュメントを取得するか、ディスクから完全なファイルを解析する場合にのみ機能します(したがって、例のようにHTMLからテキストへ、およびその部分をマッサージしないでください)。

Document document = Jsoup.connect("http://stackoverflow.com").get();
Elements paragraphLinks = document.select("p a");
for (Element paragraphLink : paragraphLinks) {
    String absUrl = paragraphLink.absUrl("href");
    // ...
}

java - jsoup を使用して Web ページのすべての段落から完全な URL を抽出する方法

1 に答える 1

Related

Reference