nlp - WEKAでのSVMトレーニングの公称属性の公称値の最大数は?

Question

私は NLP の問題を抱えており、WEKA で SVM を使用した分類を使用する予定です。単語を分類しようとしています。POS タグセットには 24 個のタグがあり、ベースフレーズチャンク (BPC) タグセットには 15 個のタグがあります。

しかし、私には「機能セット」があり、各単語をその機能ごとに分類したいと考えています。

最初の機能セットは {POS} であるため、公称属性 POS の 24 の公称値になります。2 番目は {POS+BPC} であるため、POS+BPC 公称属性の公称値は 24*15=375 になります。

したがって、たとえば、単語は次のように出力され、各名義属性が分類されます。

word, POS=tag1, POS+BPC=tag234

これが可能かどうか疑問に思っていますか？公称属性に使用できる (クラス) 公称値の最大数は? より多くのタグセットとより多くの組み合わせを使用する可能性があるためです。LibSVM パッケージを使用する必要がありますか? SVM を使用してこのマルチクラスの問題を解決することは理にかなっていますか?

私のトレーニングデータセットは約です。288K ワード、私のテストデータセットは約です。35kワード。

score 0 · Accepted Answer

300 万の機能を持ち、weka を使用して分類器を構築した人を知っています。しかし、weka に提供するメモリを 1 GB から 3 GB に増やす必要がありました。彼のセットアップと比較すると、2 つの機能がありますが、値の範囲は 3 桁です。メモリの問題以外はまったく問題はないと思います。Weka は大規模なマイニングワークベンチです。健全性テストとしていくつかのサンプルを実行して、私たちに知らせませんか?

nlp - WEKAでのSVMトレーニングの公称属性の公称値の最大数は?

1 に答える 1

Related

Reference