3


その行列を作成する必要がありますが、各セルの正規化されたtf-idfを計算する方法が見つかりません。私が実行する正規化は、 1 / sqrt(列のsumOfSquaredtf-idf)ごとにtf-idf( DefaultSimilarityを使用して計算)を除算する正弦正規化です。

誰かがそれを実行する方法を知っていますか?
よろしくお願いします
アントニオ

4

1 に答える 1

1

Luceneを使用しない1つの方法は、SujitPalのブログで説明されています。または、フィールドごとに用語ベクトルを持つLuceneインデックスを作成し、用語を反復処理してidfを取得してから、用語のドキュメントを反復処理してtfを取得することもできます。

于 2011-02-05T07:02:00.307 に答える