lucene - Lucene。term-docマトリックスを作成する方法

翻译自：https://stackoverflow.com/questions/4756377 2011-01-21T07:24:07.677

1734 次

3

その行列を作成する必要がありますが、各セルの正規化されたtf-idfを計算する方法が見つかりません。私が実行する正規化は、 1 / sqrt（列のsumOfSquaredtf-idf）ごとにtf-idf（ DefaultSimilarityを使用して計算）を除算する正弦正規化です。

誰かがそれを実行する方法を知っていますか？
よろしくお願いします
アントニオ

1 に答える 1

1

Luceneを使用しない1つの方法は、SujitPalのブログで説明されています。または、フィールドごとに用語ベクトルを持つLuceneインデックスを作成し、用語を反復処理してidfを取得してから、用語のドキュメントを反復処理してtfを取得することもできます。

于 2011-02-05T07:02:00.307 に答える