K-Means アルゴリズムを実装しようとしていますが、ベクトル部分について混乱しています。
これは私がしたことです:
ドキュメントごとに、その中の単語ごとに tf-idf を生成し、それを STL マップに保存しました。次に、実際の単語とのアルゴリズムにコサイン類似度を使用しました。
ステミング部分はどこで使用すればよいですか?
最初に単語をステム処理し、ステム処理された単語の tf-idf を計算する必要がありますか?
アルゴリズムには語幹の付いた単語のみを使用する必要がありますか?
ステミングを使用しても結果は低下しませんか?