こんにちは、scikit-learn がマトリックスの TFIDF スコアを計算する方法を理解しようとしています: ドキュメント 1、機能 6、「ワイン」:
test_doc = ['The wine was lovely', 'The red was delightful',
'Terrible choice of wine', 'We had a bottle of red']
# Create vectorizer
vec = TfidfVectorizer(stop_words='english')
# Feature vector
tfidf = vec.fit_transform(test_doc)
feature_names = vec.get_feature_names()
feature_matrix = tfidf.todense()
['bottle', 'choice', 'delightful', 'lovely', 'red', 'terrible', 'wine']
[[ 0. 0. 0. 0.78528828 0. 0. 0.6191303 ]
[ 0. 0. 0.78528828 0. 0.6191303 0. 0. ]
[ 0. 0.61761437 0. 0. 0. 0.61761437 0.48693426]
[ 0.78528828 0. 0. 0. 0.6191303 0. 0. ]]
私は自分でそれを計算するために非常によく似た質問への答えを使用していました: どのようにTF-IDFはscikit-learn TfidfVectorizerによって計算されますしかし、彼らのTFIDFVectorizerでは、ノルム=なし.
私はnorm=l2のデフォルト設定を使用しているので、これはnorm=Noneとどのように違いますか?また、どうすれば自分で計算できますか?