6

Lucene インデックスに数十億の行を追加しています。各行はほぼ 6000 バイトです。Lucene Index に追加できる最大行数に制限はありますか? Lucene インデックスで 6000 バイトの 10 億行が占有するスペースの量。このサイズに制限はありますか?

4

1 に答える 1

8

制限については Lucene のドキュメントを参照してください。

  • ~ 2,740 億の異なる用語、
  • ~ 21 億のドキュメント。

このような大規模なデータセットの場合、逆インデックスにのみ Lucene を使用し、ドキュメントの実際のコンテンツを別の場所に保存することをお勧めします。インデックスのサイズは、ドキュメントの元のコーパスのサイズの ~ 30% になると予想できます (これらが通常のドキュメントである場合、多くの一意の用語を含む計算によって生成されたドキュメントは、はるかに大きなインデックスを生成します)。

于 2012-07-05T12:38:09.193 に答える