これは非常に素朴に聞こえるかもしれませんが、機械学習の用語で話す場合、ドキュメント クラスタリングの機能はドキュメントから選択された単語であり、ステミング後に破棄されたり、ストップ ワードとして使用されたりする単語であることを確認したかっただけです。
私は LibSvm ライブラリを使用しようとしていますが、さまざまなタイプの { no_of_instances, no_of_features } に対してさまざまなアプローチがあると書かれています。
no_of_instances が no_of_features よりもはるかに低い場合と同様に、線形カーネルで十分です。両方が大きい場合、線形が高速になります。ただし、no_of_features が小さい場合は、非線形カーネルの方が優れています。
したがって、ドキュメントのクラスタリング/分類では、100 のような少数のドキュメントがあり、それぞれに約 2000 の単語が含まれている可能性があります。そのため、機能と見なすものに応じて、小さな no_of_instances カテゴリと大きな no_of_features カテゴリに分類されます。
ドキュメントに tf-idf を使用したいと思います。
no_of_features は tf-idf から取得したベクトルのサイズですか?