整数の高次元 (30000 次元) ベクトルがあります。[はい、いいえ] の 2 つのクラスがあります。YES クラスの 6000 サンプルと NO クラスの 50000 サンプルがあります。分類器をトレーニングして、将来新しいサンプルをこれらのクラスのいずれかに自動的に分類したいと思います。
Weka Java API の使用方法は知っていますが、どのアルゴリズムをどの順序で使用すればよいかわかりません。次の質問について、どなたかアドバイスいただけないでしょうか。
- ベクトルの次元が高すぎますか、それとも Weka でこれを効率的に行うにはサンプルが多すぎますか?
- 開始する前に次元を減らす必要がありますか? 特徴ベクトルの重要な要素を識別するためにどのアルゴリズムを使用できますか?
- この種のデータを分類するには、どの分類器が最適でしょうか? デシジョン ツリーは問題なく機能すると思いますが、単純なベイズの方がトレーニングが速いのではないでしょうか。
- weka ではすべての要素に名前を付ける必要があるため、30000 個の機能のそれぞれに名前を割り当てるにはどうすればよいですか?
アドバイスをいただければ幸いです。ありがとう。