stackoverflow ダンプ ファイル (Posts.xml-17gb) を解析しようとしています。形式は次のとおりです。
<posts>
<row Id="15228715" PostTypeId="1" />
.
<row Id="15228716" PostTypeId="2" ParentId="1600647" LastActivityDate="2013-03-05T16:13:24.897"/>
</posts>
各質問とその回答を「グループ化」する必要があります。基本的に質問(posttypeid = 1)を見つけ、別の行のparentIdを使用してその回答を見つけ、 db に保存します。
querypath (DOM) を使用してこれを実行しようとしましたが、 exiting(139) のままでした。私の推測では、ファイルのサイズが大きいため、大量のスワップを行ったとしても、私の PC はそれを処理できませんでした。
私はxmlreaderを検討しましたが、xmlreaderを使用して見ると、プログラムはファイルを何度も読み込んでいる(質問を見つけ、答えを探し、何度も繰り返す)ため、実行できません。私が間違っている ?
他の方法/方法はありますか?
ヘルプ!
これは 1 回の解析です。