2

DBPedia ダンプ ファイルから各記事のラベル、要約、カテゴリ、および関連する日付を抽出したいと考えています。

私はdotnetrdfを使用しており、抽出したデータを MS SQL データベースに保存したいと考えています (Virtuoso のようなトリプル ストアは使用したくありません)。

ダンプ ファイルのサイズが原因で、ダンプ ファイルをメモリにロードできません。

ステートメントを抽出する解決策はありますか? 私が想像できる唯一の方法は、ダンプファイルを小さなチャンクファイルに分割することです.それが唯一の解決策ですか?

4

1 に答える 1

3

実際、dotNetRDF のすべてはストリーミング解析をサポートするように設計されています。最も一般的な使用例はたまたまインメモリ構造にデータをロードすることですが、その場合でも内部でストリーミング パーサー サブシステムを使用します。

Handlers APIを紹介する Reading RDF ドキュメントのAdvanced Parsingセクションを参照してください。この API を使用すると、パーサーによって生成されたデータに何が起こるかを完全に制御できます。そのため、ストリームによって生成されたデータを受け取り、それをデータベースに入れるカスタム ハンドラーを作成できます。

于 2013-03-20T16:47:45.520 に答える