2

私は lucene が初めてで、プレーン テキスト、属性、および非常に多くの xml タグを含む大きな xml ファイル (15 GB) の lucene でインデックスを作成したいと考えています。サンプルで lucene を使用してこの xml ファイルを解析してインデックスを作成する方法と、lucene を使用する場合はデータベースが必要です

lucene を使用して巨大な xml ファイルを解析してインデックスを作成する方法は? サンプルやリンクは、プロセスを理解するのに役立ちます。もう 1 つは、lucene を使用する場合、データベースでのインデックス作成を見て行ったように、任意のデータベースが必要になります..

4

2 に答える 2

1

インデックス作成は、データベースを使用した場合と同じように作成され、インデックスを作成するすべてのデータを反復処理してインデックスに書き込むだけです。XmlReaderクラスを使用して、xml を前方のみの方法で解析するだけです。データベースの場合と同様に、検索結果がを表しているかを知るために、ある種の主キーにインデックスを付ける必要があります。

データベースは、主キーからインデックス付きデータを検索するときに役立ちます。リクエストごとに 15 GiB の xml ファイルを繰り返す必要がある場合、主キーのデータを読み取るのは面倒です。

データベースは必須ではありませんが、非常に役立ちます。これを、xml を読み取ってデータベースにダンプし、以前に作成した「通常の」データベース インデックス コードを使用するインポート ツールとして作成します。

于 2013-06-20T06:36:23.413 に答える
0

Lucene と Saxon を組み合わせた Michael Sokolov の Lux 製品をご覧ください。

http://www.mail-archive.com/solr-user@lucene.apache.org/msg84102.html

私はそれを自分で使用したことがなく、その機能を完全に理解しているとは言えません。

于 2013-06-20T07:35:27.313 に答える