0

これは非常に素朴に聞こえるかもしれませんが、機械学習の用語で話す場合、ドキュメント クラスタリングの機能はドキュメントから選択された単語であり、ステミング後に破棄されたり、ストップ ワードとして使用されたりする単語であることを確認したかっただけです。

私は LibSvm ライブラリを使用しようとしていますが、さまざまなタイプの { no_of_instances, no_of_features } に対してさまざまなアプローチがあると書かれています。

no_of_instances が no_of_features よりもはるかに低い場合と同様に、線形カーネルで十分です。両方が大きい場合、線形が高速になります。ただし、no_of_features が小さい場合は、非線形カーネルの方が優れています。

したがって、ドキュメントのクラスタリング/分類では、100 のような少数のドキュメントがあり、それぞれに約 2000 の単語が含まれている可能性があります。そのため、機能と見なすものに応じて、小さな no_of_instances カテゴリと大きな no_of_features カテゴリに分類されます。

ドキュメントに tf-idf を使用したいと思います。

no_of_features は tf-idf から取得したベクトルのサイズですか?

4

1 に答える 1

1

ここで話していることは可能性の 1 つにすぎず、実際にはドキュメントの機能を定義する最も簡単な方法です。機械学習の用語では、機能は入力空間 (この特定の例ではドキュメントの空間) から、特定の機械学習モデルに適した抽象空間へのマッピングです。ほとんどの ML モデル (ニューラル ネットワーク、サポート ベクター マシンなど) は数値ベクトルで動作するため、特徴はドキュメントから (一定サイズの) 数値ベクトルへのマッピングである必要があります。これが、 bag of owrdsの表現を選択する場合がある理由です。ここで、ドキュメント表現として単語のカウント ベクトルがあります。この制限は、特定の条件付き確率を定義できる限り、任意のオブジェクトで機能する Naive Bayes (または非数値データを処理できるようにする SVM のカスタム カーネル) などの特定のモデルを使用することで克服できます。ここで、最も基本的なアプローチは、特定の単語を含むドキュメントまたは含まないドキュメントを「機能」として扱うことです。一般に、これが唯一の可能性ではなく、統計的特徴、意味的特徴 (wordnet のようないくつかのオントロジーに基づく) などを使用する多数の方法があります。

要約すると、これは機械学習モデルのドキュメントの最も単純な表現の 1 つにすぎません。始めるのは良いことであり、基本を理解することは良いことですが、「機能の定義」には程遠いものです。

編集

no_of_featuresは、ドキュメントの表現に使用するベクトルのサイズです。したがって、tf-idf を使用する場合、結果のベクトルのサイズはno_of_featuers.

于 2013-08-12T07:34:26.333 に答える