0

コンテンツ抽出プロジェクトに取り組み始めたばかりです。まず、Web ページの画像 URL を取得しようとしています。「img」の「src」属性が相対URLを持つ場合があります。しかし、完全な URL を取得する必要があります。

これを実現するための Java ライブラリを探していて、Jsoupが役立つと思いました。これを簡単に達成するための他のライブラリはありますか?

4

1 に答える 1

1

相対 URL から完全な URL を取得する必要がある場合は、Java での解決策は簡単です。

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);

HTML ページのベース URL は、通常、HTML コードを取得した URL です。ただし、ドキュメント ヘッダーで使用される <base> タグは、別のベース URL を指定するために使用される場合があります (ただし、あまり頻繁には使用されません)。

src 属性値を取得し、最終的なベース タグを見つけるために、Jsoup または単に DOM パーサーを使用できます。

于 2013-02-20T08:49:33.960 に答える