java - JavaのWebページからの画像抽出

Question

コンテンツ抽出プロジェクトに取り組み始めたばかりです。まず、Web ページの画像 URL を取得しようとしています。「img」の「src」属性が相対URLを持つ場合があります。しかし、完全な URL を取得する必要があります。

これを実現するための Java ライブラリを探していて、Jsoupが役立つと思いました。これを簡単に達成するための他のライブラリはありますか?

score 1 · Accepted Answer

相対 URL から完全な URL を取得する必要がある場合は、Java での解決策は簡単です。

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);

HTML ページのベース URL は、通常、HTML コードを取得した URL です。ただし、ドキュメントヘッダーで使用される <base> タグは、別のベース URL を指定するために使用される場合があります (ただし、あまり頻繁には使用されません)。

src 属性値を取得し、最終的なベースタグを見つけるために、Jsoup または単に DOM パーサーを使用できます。

1 に答える 1