Luceneのインデックスの(ファイル形式ではなく)メモリ内表現はどのように見えますか?リバースインデックス全体が、たとえば投稿リストの配列としてメモリにロードされていますか(各投稿リストにはドキュメントID、ドキュメント内の用語の頻度、および位置が含まれています)?何かのようなもの
class Posting {
private int docID;
private int termFreq;
private int[] termPositions;
}
class PostingList {
private Posting[] postings;
}
public class SomeClassThatHoldsTheIndexInMemory {
private PostingList[] index; // Indexed by some internal term ID?
}
インデックスを構成するすべてのもの(用語に関する補助情報を含む)がメモリに保持されていない可能性があることを理解していますが、確かに何かがありますか?
インデックスのメモリ内表現を定義するクラスはどれですか?インデックスが上記のようになっている場合、Luceneはどのようにして用語(文字列)から用語ID(整数)に移行しますか?