0

lucene と jena を使用して、dbpedia (tdb ストアにある) のサブセットで全文検索を実行したいと考えています。

String TDBDirectory = "path" ;
Dataset dataset = TDBFactory.createDataset(TDBDirectory) ;

ただし、すべてのリソースではなく、タイトルのみです。必要なトリプルに対してのみインデックスを作成することで、より高速な検索を実行できると思います。例えば

<http://de.dbpedia.org/resource/Gurke> <http://www.w3.org/2000/01/rdf-schema#label> "Gurke"@de .

ここで「Gurke」を検索したいのですが、#label プロパティを持つトリプル以外は検索しません。私の質問は、インデックスを作成して #label プロパティでトリプルのみを検索するにはどうすればよいですか? 私はすでにhttp://jena.sourceforge.net/ARQ/lucene-arq.htmlを見てきましたが、詳細が不十分であるか、私にとって難しすぎます。

4

1 に答える 1

1

http://jena.sourceforge.net/は Jena の古いホームです -- プロジェクトは現在http://jena.apache.org/です (どうやってその古いページを見つけたのですか?)

このプロジェクトは最近、LARQ の代替品を導入しました。

http://jena.apache.org/documentation/query/text-query.html

これは現在、メインのコードベースの一部です。これは 2.10.2 リリースでリリースされます - 現時点では、https://repository.apache.org/content/repositories/snapshots/org/apache/jena/からの開発ビルドを使用する必要があります。Fuseki を使用するか、プロジェクトの依存関係として追加する必要があります。

この新しいテキスト検索サブシステムは、TDB および Fuseki との連携が大幅に向上します。

于 2013-06-15T10:12:41.550 に答える