トレーニング例で分類子を学習し、テスト例を分類する必要があります。私の例は長いテキストです。i 番目の要素が i 番目の最も頻繁に使用される単語である機能セットを使用したい。たとえば、最初の機能が最も頻繁に使用される単語です。
私の問題は、文字列機能を使用すると、必要な分類子を使用できないことです。また、名目上の特徴を使用する場合は、トレーニング例で最初の特徴を最も頻繁に使用する単語にします。テスト例の場合、最初の機能はテスト例で最も頻繁に使用される単語です。というわけで、これらの機能は異なり、分類器を使用したい場合、weka は一致しないと言います。
解決策はありますか?
各テキストで最も頻繁に使用される 50 の単語である機能セットを使用できるようにしたいと考えており、トレーニング例の arff はテスト例の影響を受けないようにする必要があります。さらに、多くの種類の分類子 (smo、naive-bayes、j48 など) を使用できるようにしたいと考えています。
ありがとう!