3

セマンティック情報のスクレイピングにJenaを使用してJavaでアプリを構築しています。すべてのRDFaステートメントを正しく抽出できるRDFaパーサーを探しています。具体的には、使用されている名前空間に関する情報を抽出し、ページ内でRDFaタグが正しいと仮定すると、オブジェクトとデータのプロパティを区別する正しいトリプルが生成されます。

http://rdfa.info/wiki/ConsumeforJavaのサイトからすべてのRDFaパーサーを調べました。それらはすべてRDFaステートメントを抽出するのに苦労し、クラッシュしない場合、Jena RDFaパーサーは多くのエラーを表示し、ひどい死を迎えます。データは誤って処理され、一般的に混同されるため、ほとんど役に立ちません。私はこの分野の初心者なので、優しくしてください:)

また、別の言語で書かれたライブラリを使用することも考えていましたが、Javaコードにプラグインする方法がわかりません。助言がありますか?

4

2 に答える 2

3

java-rdfaを使用します。jenaをサポートし、validator.nu html 5パーサーを使用します。これは、ブラウザーと同じようにhtmlの解析を処理します(つまり、壊れたマークアップを修復します)。

于 2010-07-05T18:38:49.373 に答える
3

ほとんどのRDFaパーサーは、無効なHTMLに苦労しています。any23ライブラリには、無効なHTMLを処理できるRDFaパーサーが含まれています。名前空間マッピングなどを含むすべてのRDFaを完全なRDFに解析し、活発に開発されています。

于 2010-06-04T20:23:34.107 に答える