3

Lucene には、インクリメンタル インデックス作成の優れた機能があります。これは通常、IR システムをゼロから開発する際の苦痛です。低レベルの Lucene API を使用して、逆インデックス、つまり、逆リスト、位置情報、単語の頻度、idfs、フィールド ストレージなどのストレージとしてのみ使用できるかどうかを知りたいです...

要点は、ドキュメントの独自の重み付けとスコアリングを実装したいということです。私はSimilarityクラスを認識していますが、それは私が望む柔軟性を与えません。

4

1 に答える 1

1

独自のクエリ クラスや独自のスコアラーなどを作成できます。唯一の問題は、グローバル データが必要な場合です。(たとえば、tf/idf では、freq と inverse doc freq という用語を知っておく必要があります。) スコアリング アルゴリズムに必要なドキュメント間または用語間メタデータが他にある場合、問題が発生する可能性があります。これを保存するために私が知っている素晴らしい方法ではありません。

しかし、基本的には、アルゴリズムが漠然と tf/idf であるか、ドキュメントごとにのみ機能する限り、問題ないと思います。

于 2011-03-10T20:03:24.923 に答える