私たちは薬物などの情報を 3 重に保管していますが、この情報を抽出して利用できるようにし、検索エンジン Elasticsearch でインデックス化できるようにする方法がわかりません。私は、SPARQL クエリを実行して次の情報を抽出することを想定していました。
- 題名
- 体
- フレフ
トリプルストアには上記の構造が含まれていないことに注意してください。それよりもはるかに複雑です。
要件の 1 つは、トリプル ストアからの異なるトリプルを使用してタイトルをフォーマットできるようにすることです。たとえば、薬物の場合、次のようなものが必要になります。
パラセタモール | はじめに | 薬
(プラセタモールは薬剤名、イントロダクションはサブセクション、薬剤は種類)
body については、ドラッグに関連するすべてのトリプルからすべてのテキスト値を抽出することを考えていました。
また、href の場合は、リソース (ドラッグ) の uri を使用するだけです。
次に、この情報を JSON-LD に変換して、Elasticsearch でインデックスを作成できるようにします。最終的に、JSON-LD には、タイトル、本文、および href のみが含まれます。
私の質問は、SPARQL を使用して、私がやりたいことに対して正しいアプローチを使用するか、上記の要件に基づいて必要なデータを抽出する別のアプローチを検討する必要があるかということです。