xml - Java で Web クローラーの RDF/XML Web ページから URI を抽出するパーサー

Question

Linked Data 用の Web クローラーを構築しています。次のコードによって、HTML ページと RDF/XML ページを区別しました。

public static int checktype(URL url) throws IOException
{
String contentType = ((HttpURLConnection) url.openConnection()).getContentType();
System.out.println("Website is read"); 
int t=0;
if("text/html".equals(contentType)) {t=0;}
else if("application/rdf+xml".equals(contentType)) {t=1;}
System.out.println(contentType);
return t;

}

ここで、RDF/XML データを含む Web ページを解析して、そのページからすべての URI を抽出したいと考えています。HTML パーサーは見つかりましたが、Linked Data は見つかりませんでした。さらに助けてください

score 2 · Accepted Answer

おそらく、 Apache Any23などの既存のライブラリを使用する方がよいでしょう。このライブラリには、さまざまな形式とすべての形式のパーサーを自動的に区別するためのコードが既に付属しています。

score 1 · Accepted Answer

1

jenaライブラリを参照してください。RDF/XMLパーサーが含まれています。

于 2012-09-21T10:45:36.533 に答える

xml - Java で Web クローラーの RDF/XML Web ページから URI を抽出するパーサー

2 に答える 2

Related

Reference