ネットから見つけたドキュメントから、コーパス内の用語の用語頻度と逆ドキュメント頻度の重みを決定するために使用される式を見つけました。
tf-idf(wt)= tf * log(|N|/d);
gensim で言及されている tf-idf の実装を行っていました。ドキュメントに記載されている例は
>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)]
これは明らかに Tf-IDF の標準実装に従っていません。両モデルの違いは何ですか?
注: 0.70710678 は、固有値計算で通常使用される値 2^(-1/2) です。では、固有値はどのようにして TF-IDF モデルに組み込まれるのでしょうか?