c# - .NET の DBPedia の大きなダンプファイルからコンテンツを抽出する

Question

DBPedia ダンプファイルから各記事のラベル、要約、カテゴリ、および関連する日付を抽出したいと考えています。

私はdotnetrdfを使用しており、抽出したデータを MS SQL データベースに保存したいと考えています (Virtuoso のようなトリプルストアは使用したくありません)。

ダンプファイルのサイズが原因で、ダンプファイルをメモリにロードできません。

ステートメントを抽出する解決策はありますか? 私が想像できる唯一の方法は、ダンプファイルを小さなチャンクファイルに分割することです.それが唯一の解決策ですか?

score 3 · Accepted Answer

実際、dotNetRDF のすべてはストリーミング解析をサポートするように設計されています。最も一般的な使用例はたまたまインメモリ構造にデータをロードすることですが、その場合でも内部でストリーミングパーサーサブシステムを使用します。

Handlers APIを紹介する Reading RDF ドキュメントのAdvanced Parsingセクションを参照してください。この API を使用すると、パーサーによって生成されたデータに何が起こるかを完全に制御できます。そのため、ストリームによって生成されたデータを受け取り、それをデータベースに入れるカスタムハンドラーを作成できます。

c# - .NET の DBPedia の大きなダンプ ファイルからコンテンツを抽出する

1 に答える 1

Related

Reference

c# - .NET の DBPedia の大きなダンプファイルからコンテンツを抽出する