16GBのファイルシステムスペースに200万のXMLドキュメントがありません。それらはすべて有効であり、単一のDTDを共有します。それらはすべてほぼ同じサイズです(すべて同じラボ情報システムによって生成されます)。
1人のユーザーが2Mのドキュメントコーパス全体をクエリする簡単な方法を探しています。私はこれをWebや複数のLANユーザーに公開するつもりはありません。ただし、クエリインターフェイスをイントラネットに公開できるようにしたいと思います。クエリ言語には柔軟性がありますが、アドホッククエリを実行できるようにしたいと考えています。少なくとも同様のパフォーマンスを実現したいので、インデックスに対応するために必要に応じて追加のディスク領域を割り当てたいと考えています。
実行可能なソリューションは、8GBのRAMを搭載したシングルクアッドコアLinuxボックスで嘆かわしいものでなければなりません。新しいハードウェアはオプションではありません。
e-Xist DBを見つけましたが、アクティビティがそれほど多くないようで、デモサイトがダウンしています。