単一の Web ページの絶対 URL を見つけるためのコードをいくつか書いています。
http://explore.bfi.org.uk/4ce2b69ea7ef3
これまでのところ、そのページのすべてのリンクを取得し、絶対 URL を出力します
コードの一部を次に示します。
Elements hyperLinks = htmlDoc.select("a[href]");
for(Element link: hyperLinks)
{
System.out.println(link.attr("abs:href"));
}
これにより、上記のように多くの URL が出力されます。ただし、いくつかの URL もスキップしているようです。それがスキップするものは、私が実際に必要なものです。
これは、絶対 URL に変換されない a[href] 要素の 1 つです。
<div class="title"><a href="/4ce2b69ea7ef3">Royal Review</a><br /></div>
「リンク」を印刷するとこの行が印刷されますが、「abs:href」を入力すると空白で印刷されます。
私は Java を初めて使用しますが、フィードバックをお待ちしております。