3

テキスト分類の申請を始めたばかりで、このトピックに関する論文をたくさん読んだのですが、今までどうやって始めたらいいのかわからず、全体像がわからない気がします。トレーニングデータセットとその説明を読み、SVMアルゴリズム(SVM.Net)の優れた実装を取得しましたが、この実装でそのデータセットを使用する方法がわかりません。データセットのテキストから特徴を抽出し、これらの特徴をSVMへの入力として使用する必要があることを知っているので、テキストの特徴を抽出してSVMアルゴリズムへの入力として使用する方法についての詳細なチュートリアルについて教えてください。新しいテキストを分類するためのこのアルゴリズム?そして、テキスト分類にSVMを使用することについての完全な例があれば、それは素晴らしいことです。

どんな助けでもいただければ幸いです。前もって感謝します。

4

1 に答える 1

4

テキスト分類用の機能の作成は、必要に応じて複雑にすることができます。

簡単なアプローチは、それぞれの個別の用語を機能インデックスにマッピングすることです。次に、各ドキュメントを各用語の頻度のベクトルとして表します。(ストップワード、ウェイトタームなどを削除できます)。テキスト分類の場合は、各ベクトルにラベルを割り当てます。

たとえば、ドキュメントが文の場合:

John loves Mary

「スパム」というラベルが付いています。

次に、次のマッピングがあります。

John : 1
loves: 2
Mary: 3

次に、ベクトルは次のようになります。

1 1 2 1 3 1

(各機能の重みは1であると想定しています)

SVM.NETについてはわかりませんが、ほとんどの教師あり機械学習方法はベクトルベースの入力を受け入れます。

于 2011-05-23T13:24:58.983 に答える