<id>
タグまたはid=""
プロパティを持つエントリを含む非常に大きなXMLファイルがあるとします。
このIDで検索する方法は?検索インデックスなどを作成できますか?
現在使用してorg.w3.dom
います。検索する手段はありますか?
アップデート
私の大きなXMLファイルはダウンロードされたウィキペディアです。40Gサイズで、何百万ものレコードがあります。
Luceneのようなインデックスを付けて、IDをすばやく検索することは可能ですか?
UPDATE2
試しBaseX
ました。それは私のXMLを食べ、32Gbのデータベースを作成しました。データが切り捨てられたのか、32Gbが圧縮によるものなのかがわかりません。
残念ながら、IDで検索するには70〜80秒以上かかります。したがって、MediawikiAPIクエリよりも長くなります。