0

zip フォルダーを lucene でインデックス化することは可能ですか。解凍すると内容が大きすぎます。テキストファイルを含む圧縮されたフォルダーの束にインデックスを付けるだけでは、検索が正しく機能しません。zip ファイルを解凍せずに lucene をインデックス化することは可能ですか。

4

1 に答える 1

1

Lucene は単なる検索ライブラリであり、考えられるすべてのシナリオを「知る」方法はありません。たとえば、XML ドキュメント、Word ファイル、.zip 内のファイル、チェルノブイリ発電所で作成されたファイルなどのインデックスを作成する方法などです。

しかし、Lucene は、データを Lucene にフックするための APIを提供するためにそれを行います。

アーカイブ ファイルのコンテンツを解凍できない場合は、zip ファイルを読み取り(ただし、ディスク上で解凍しない)、このデータを Lucene にフィードするクラスを作成できます。

主な関心事がインデックスのサイズである場合、それを減らすためにできることはあまりありません。ただし、いくつかのヒントがあります。

  • ストップワードなしでインデックスを作成してみてください
  • フィールドを保存せず、インデックスのみを作成します (ヒント: Field.Store.NO )
  • 用語の数を減らすために、常にすべての用語を小文字にします
于 2013-02-15T11:09:21.493 に答える