0

私は、Apache Lucene (v 3.6.1) をコアとする商用製品 (検出ツール) を使用しています。約 60K のフルテキストとメタデータを取り込もうとしています。インデックス サイズがどのように変化するかを把握したいと考えています。理想的には、毎回 5/10K のプレーン テキストの束をインデックス化し、インデックスの成長を評価したいと考えています (これは線形であると予想しています)。私の理解では、メイン ファイルは .CFS (複合ファイル) ですが、次の形式しかないようです。

.FDT (field index)
.FDX (field data)
.FNM (fields)
.FRQ (frequencies)
.NRM (norms)
.PRX (positions)
.TII (term info index)
.TIS (term infos)
.segment.GEN and segment_N (segments)

(ファイルを読みました.CFS はバージョン 3.0.3 からオプションになりました。間違っていたら訂正してください)。推奨されるアプローチは何ですか?どんなアドバイスでも大歓迎です!

本当にありがとう、

私。

4

0 に答える 0