次の形式の RDF/XML ドキュメントがあります。
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xmlns:ags="http://purl.org/agmes/1.1/" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dct="http://purl.org/dc/terms/">
<bibo:Article rdf:about="http://xxxxx/NO8500391">
<dct:identifier>NO8500391</dct:identifier>
...
</bibo:Article>
<bibo:Article rdf:about="http://xxxxx/NO8500523">
...
</bibo:Article>
<bibo:Article rdf:about="http://xxxxx/NO8500496">
...
</bibo:Article>
</rdf:RDF>
ご覧のとおり、1 つの RDF/XML ファイルには多数bibo:Article
の があり、場合によっては数千にもなります。私が望むのは、各記事を抽出し、Apache Jena を使用して RDF/JSON (モデルの作成方法を知っている) に変換することです。これにより、記事ごとに個別のドキュメントを作成し、後でそれらすべてを CouchDB などのインデックスにインポートしたり、検索を実行する Elasticsearch。
モデル (Jena) 内の各記事を抽出するにはどうすればよいですか? 私が考えていた汚い方法は、ファイルを XML として処理し、各bibo:Article
要素を抽出することです。