私は NLP の問題を抱えており、WEKA で SVM を使用した分類を使用する予定です。単語を分類しようとしています。POS タグセットには 24 個のタグがあり、ベース フレーズ チャンク (BPC) タグセットには 15 個のタグがあります。
しかし、私には「機能セット」があり、各単語をその機能ごとに分類したいと考えています。
最初の機能セットは {POS} であるため、公称属性 POS の 24 の公称値になります。2 番目は {POS+BPC} であるため、POS+BPC 公称属性の公称値は 24*15=375 になります。
したがって、たとえば、単語は次のように出力され、各名義属性が分類されます。
word, POS=tag1, POS+BPC=tag234
これが可能かどうか疑問に思っていますか?公称属性に使用できる (クラス) 公称値の最大数は? より多くのタグセットとより多くの組み合わせを使用する可能性があるためです。LibSVM パッケージを使用する必要がありますか? SVM を使用してこのマルチクラスの問題を解決することは理にかなっていますか?
私のトレーニングデータセットは約です。288K ワード、私のテスト データセットは約です。35kワード。