ドキュメントを確認しましたが、バルク ロードの一般的なガイドラインを特定できません。
データをgraphdbに一括ロードする最良の方法は、LoadRDFツールを使用することです。
ただし、適切な設定の一般的なルールはよくわかりません。まず、SSD ドライブを搭載した「平均的な」サーバーを使用している場合、どのような解析速度が許容されますか? 1.000 ステートメント/秒、10.000 ステートメント/秒、またはそれよりも多いか少ないか?
また、良い設定は何ですか?たとえば、デフォルトの 200.000 ステートメントを持つ -Dpool.buffer.size を設定できますが、10 ギガの RAM がある場合、これを増やす経験則は何でしょうか。また、100 または 300 ギガの RAM がある場合はどうでしょうか?
もう 1 つのオプションは -Dinfer.pool.size です。最小 4 の CPU があるため、スレッドの最大数に設定されます。したがって、1 コア = 4 スレッド、32 コアは 32 スレッドです。これは特別な調整を必要としないと思いますか、それとも CPU の負荷を減らしたい場合や、32 コアの場合に 64 スレッドにオーバーシュートしたくない場合にのみ必要ですか?
configs /templatesの例を含むタートル ファイルを介して利用できる追加のオプションもあります。おそらく owlim:cache-memory と owlim:tuple-index-memory はロード中に役立ち、他の設定はロード後に役立つでしょうか?
最終的に、1 つの大きなタートル ファイルではなく、何百もの個別のファイルがあるかどうか、および/またはファイルを圧縮すると読み込み速度が向上するか、それとも初期ディスク使用量が減少するだけかどうかも問題になりますか?
個人的には、現在 290 GB RAM と 32 コア、1.8T RAID 0 SSD ドライブ (ロード後にバックアップが作成されます) のセットアップがあり、SSD から同じ SSD への 30 億トリプルの初期ロードを実行しようとしています。 1 秒あたり 16.461 ステートメントのグローバル速度ではしばらく時間がかかりますが、これを改善するかどうか、またどのように改善するかはわかりません。