search - Lucene を転置インデックスとして使用する

Question

Lucene には、インクリメンタルインデックス作成の優れた機能があります。これは通常、IR システムをゼロから開発する際の苦痛です。低レベルの Lucene API を使用して、逆インデックス、つまり、逆リスト、位置情報、単語の頻度、idfs、フィールドストレージなどのストレージとしてのみ使用できるかどうかを知りたいです...

要点は、ドキュメントの独自の重み付けとスコアリングを実装したいということです。私はSimilarityクラスを認識していますが、それは私が望む柔軟性を与えません。

score 1 · Accepted Answer

独自のクエリクラスや独自のスコアラーなどを作成できます。唯一の問題は、グローバルデータが必要な場合です。(たとえば、tf/idf では、freq と inverse doc freq という用語を知っておく必要があります。) スコアリングアルゴリズムに必要なドキュメント間または用語間メタデータが他にある場合、問題が発生する可能性があります。これを保存するために私が知っている素晴らしい方法ではありません。

しかし、基本的には、アルゴリズムが漠然と tf/idf であるか、ドキュメントごとにのみ機能する限り、問題ないと思います。

search - Lucene を転置インデックスとして使用する

1 に答える 1

Related

Reference