0

テキストの膨大なデータセットがあり、そこから特定のキーワードを保持するテキストを分離しました。特定のキーワードを含むデータ セットを次に示します。次のタスクは、 8 つの感情と 2 つの感情に従ってこのデータ セットを分類することです。合計で10 の異なるクラスがあります。このアイデアは、NRC の感情語彙集から得たもので、14182 個の異なる単語と感情 + 感情クラスを保持しています。主なNRCの仕事http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. ナイーブベイズ分類、またはクラスタリングはバイナリ分類 (たとえば、2 つのクラスの肯定的感情と否定的感情) でうまく機能することを知っています。しかし、10クラスの問題が発生すると、さらに処理する方法がわかりません。あなたの提案に本当に感謝します。Rで割り当てを行っています。最終結果は次のようになります。

|==================================|====================================|
|   SentencesWithKeywords          |      emotion or sentiment class    |
-----------------------------------|------------------------------------|
|conflict need resolved turned     | anger/anticipation/disgust/fear/joy|
|conversation  exchange ideas      |     negative/positive/sadness/     | 
|richer environment                |            surprise/trust          | 
|                                  |                                    |
|----------------------------------|------------------------------------|
|     sentence2                    |anger/anticipation/disgust/fear/joy |
|                                  |     negative/positive/sadness/     |
|                                  |           surprise/trust           |
|----------------------------------|------------------------------------|
4

1 に答える 1

0

キャレット パッケージ ( http://topepo.github.io/caret/index.html )を確認してください。あなたがやろうとしているのは、2 つの異なる分類 (1 つのマルチクラスと 1 つの 2 クラスの問題) です。ドキュメントを用語頻度ベクトルとして表し、選択した分類アルゴリズムを実行します。SVM は通常、バッグ オブ ワード アプローチでうまく機能します。

于 2016-08-14T08:33:31.197 に答える