コンテンツ抽出プロジェクトに取り組み始めたばかりです。まず、Web ページの画像 URL を取得しようとしています。「img」の「src」属性が相対URLを持つ場合があります。しかし、完全な URL を取得する必要があります。
これを実現するための Java ライブラリを探していて、Jsoupが役立つと思いました。これを簡単に達成するための他のライブラリはありますか?
コンテンツ抽出プロジェクトに取り組み始めたばかりです。まず、Web ページの画像 URL を取得しようとしています。「img」の「src」属性が相対URLを持つ場合があります。しかし、完全な URL を取得する必要があります。
これを実現するための Java ライブラリを探していて、Jsoupが役立つと思いました。これを簡単に達成するための他のライブラリはありますか?
相対 URL から完全な URL を取得する必要がある場合は、Java での解決策は簡単です。
URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);
HTML ページのベース URL は、通常、HTML コードを取得した URL です。ただし、ドキュメント ヘッダーで使用される <base> タグは、別のベース URL を指定するために使用される場合があります (ただし、あまり頻繁には使用されません)。
src 属性値を取得し、最終的なベース タグを見つけるために、Jsoup または単に DOM パーサーを使用できます。