rdf - 大きなRDFをトリプルストアにロードするためのクロスプラットフォーム方式

Question

現在、Virtuoso を使用して RDF トリプルを保存しています。RDF ファイルをデータベースに自動的にロードする方法が必要です。データは非常に大きくなる可能性があるため、現在、Virtuosoバルクデータローダーを使用してデータをロードしています。ただし、将来的には他のトリプルストアに切り替える可能性があるため、このようなプラットフォーム固有のソリューションに依存したくありません。大きなRDFファイルをトリプルストアにロードする、より一般的なクロスプラットフォームの方法はありますか?

私たちのプログラミングのほとんどは Python で行われているため、Python バインディングを使用したソリューションが望ましいでしょう。

私はセマンティック Web テクノロジにかなり慣れていないので、質問の詳細が不十分な場合はお知らせください。さらに情報を提供できるように努めます。ありがとうございました！

score 1 · Accepted Answer

http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtRDFInsertで詳述されている Virtuoso RDF 挿入メソッドはいくつもあります。そのほとんどは、WebDAV や ODS などの Virtuoso に固有の機能があるため、Virtuoso に固有のものです。または機能が他のストアで異なる方法で実装されているか、まったく実装されていません。

おそらく、あなたの場合の最も一般的な方法は、データセットを Python に読み込み、SPARQL 1.1 update ( http://www.w3.org/TR/sparql11-update/ ) コマンドを使用してデータを Virtuoso または任意のSPARQL 1.1 アップデートをサポートする他のトリプルストア。このアプローチの主な欠点は、挿入プロセスを Python で管理して、データが一貫してロードされるようにし、デッドロックやロールバックなどを処理する必要があることです。これにより、この方法は非常に遅くなり、非常に大きなデータセットではおそらく耐えられないほど遅くなります。そのため、ほとんどのベンダーは、データの一貫性やデッドロックなどを内部でより高速に処理する独自の「バルクローダー」メソッドを提供しています。

rdf - 大きなRDFをトリプルストアにロードするためのクロスプラットフォーム方式

1 に答える 1

Related

Reference