2

次の形式の RDF/XML ドキュメントがあります。

<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xmlns:ags="http://purl.org/agmes/1.1/" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dct="http://purl.org/dc/terms/">
  <bibo:Article rdf:about="http://xxxxx/NO8500391">
    <dct:identifier>NO8500391</dct:identifier>
    ...
  </bibo:Article>
  <bibo:Article rdf:about="http://xxxxx/NO8500523">
    ...
  </bibo:Article>
  <bibo:Article rdf:about="http://xxxxx/NO8500496">
  ...
  </bibo:Article>
</rdf:RDF>

ご覧のとおり、1 つの RDF/XML ファイルには多数bibo:Articleの があり、場合によっては数千にもなります。私が望むのは、各記事を抽出し、Apache Jena を使用して RDF/JSON (モデルの作成方法を知っている) に変換することです。これにより、記事ごとに個別のドキュメントを作成し、後でそれらすべてを CouchDB などのインデックスにインポートしたり、検索を実行する Elasticsearch。

モデル (Jena) 内の各記事を抽出するにはどうすればよいですか? 私が考えていた汚い方法は、ファイルを XML として処理し、各bibo:Article要素を抽出することです。

4

1 に答える 1