ウィキペディアのページ (インフォボックスを含むページのみ) からすべてのインフォボックスのプロパティと値を取得しようとしています。単純な WebRequest を使用してインフォボックスを解析すると、ジャンクが多すぎます。したがって、dbpediaを使用し、Jena (SPARQL) を使用してデータを取得することを検討しています。どうやってやるの?すべてのプロパティをキーと値のペアとして提供する簡単なクエリはありますか? またはRDFを使用して、必要なものに変換します。
1025 次
2 に答える
0
http://wiki.dbpedia.org/Downloads37からのダンプを使用してみてください。たとえば、「RawInfoboxProperties」。
于 2012-02-02T12:56:53.163 に答える
0
http://dbpedia.org/sparqlには、実験に使用できるdbpedia への公開 SPARQL エンドポイントがあります。http://wiki.dbpedia.org/OnlineAccessで説明されている、クエリを作成するための例やその他のさまざまなツールがあります。データセットをダウンロードして、クエリをローカルで試すこともできます。
明確にするために、RDF は dbpedia が公開されているデータ形式です。SPARQL は RDF をクエリするためのクエリ言語です。Jena は、RDF データストアと SPARQL エンジンを含む特定の実装です。
于 2011-12-10T21:18:31.650 に答える