これを可能にするストレージと検索の内部構造は何ですか? 核心のように?
たとえば、ある用語に一致する 100 万のドキュメントと、AND クエリの 2 番目の用語に一致するその他の 100 万のドキュメントがあるとします。lucene はどのように交差を高速に行ってトップ k を取得するのですか?
用語ごとにドキュメントIDSの昇順でドキュメントを保存していますか? 次に、2 つのタームのドキュメントを交差させる必要がある場合、両方のセットを 1 回のパスで段階的に反復することにより、両方のセットで最初に共通する k 個のドキュメントを探します。
それとも、より大きなドキュメント配列からの単純な順序付けられていないハッシュ セットを使用して、共通ドキュメントを検索しますか?
または、ユーザーが要求するドキュメントの数、個々の用語に一致するドキュメントなどに応じて、そのような(またはそれ以上の)タイプの交差ポリシーが使用されますか?
ドキュメント配列のマージの核心を指摘できる記事があれば、歓迎します。
編集:情報をありがとう。今では理にかなっています。スキップリストは魔法のようです。明確な理解を得るために、さらに掘り下げます。