複数のドキュメントを含む巨大な XML ファイルがあります (必要に応じて、ドキュメントごとに複数のファイルに簡単に変換できます)。この巨大な XML のファイル サイズは約 4 GB です。ユーザーの検索をより適切かつ高速にするために、インデックスを作成する必要があります。また、XSLT を使用してこのデータを変換しています。
以下は私の基本的なXML構造です-
<Docs>
<Doc>
<Title t=""></Title>
<Desc></Desc>
<Info></Info>
</Doc>
<Doc>
<Title t=""></Title>
<Desc></Desc>
<Info></Info>
</Doc>
</Docs>
必要に応じて、それぞれDoc
を分離できます。ユーザーが特定の単語を検索した場合、XSLT を使用して完全なドキュメントを HTML 形式で表示します。
これまで Lucene を使用したことがないので、いくつか質問があります -
- XML ファイルと Lucene インデックス ファイルの両方を保持する必要がありますか?
- あと1つだけだとすると、XSLTを介して変換可能になりますか?