0

私は NLP の問題を抱えており、WEKA で SVM を使用した分類を使用する予定です。単語を分類しようとしています。POS タグセットには 24 個のタグがあり、ベース フレーズ チャンク (BPC) タグセットには 15 個のタグがあります。

しかし、私には「機能セット」があり、各単語をその機能ごとに分類したいと考えています。

最初の機能セットは {POS} であるため、公称属性 POS の 24 の公称値になります。2 番目は {POS+BPC} であるため、POS+BPC 公称属性の公称値は 24*15=375 になります。

したがって、たとえば、単語は次のように出力され、各名義属性が分類されます。

word, POS=tag1, POS+BPC=tag234

これが可能かどうか疑問に思っていますか?公称属性に使用できる (クラス) 公称値の最大数は? より多くのタグセットとより多くの組み合わせを使用する可能性があるためです。LibSVM パッケージを使用する必要がありますか? SVM を使用してこのマルチクラスの問題を解決することは理にかなっていますか?

私のトレーニングデータセットは約です。288K ワード、私のテスト データセットは約です。35kワード。

4

1 に答える 1

0

300 万の機能を持ち、weka を使用して分類器を構築した人を知っています。しかし、weka に提供するメモリを 1 GB から 3 GB に増やす必要がありました。彼のセットアップと比較すると、2 つの機能がありますが、値の範囲は 3 桁です。メモリの問題以外はまったく問題はないと思います。Weka は大規模なマイニング ワークベンチです。健全性テストとしていくつかのサンプルを実行して、私たちに知らせませんか?

于 2012-05-12T01:45:40.973 に答える