weka を使用してテキストを分類しようとしています。私がすることはこれです:
- すべてのデータを含む大きな ARFF ファイルを作成します:
all_of_it.arff
. train.arff
そのデータをトレーニングとテストに分割します。test.arff
- トレーニング セットで特徴選択を行い、新しいトレーニング ファイルを出力します。
train_fs.arff
- これらの選択された機能のみを使用して分類器を構築します。
そして問題は……。
トレーニング セットから選択した機能のみを使用するようにテスト セットを標準化する方法がよくわかりません。に従って新しいテストファイルを作成するようなものtest.arff
train_fs.arff
※使ってみた
java -cp weka.jar weka.filters.unsupervised.attribute.Standardize -b -i train_fs.arff -o train2.arff -r test.arff -s test2.arff
しかし、私は悪名高いSrc and Dest differ in # of attributes
.
Arff ファイル (つまり、ほとんど機能のない新しいトレーニング データ) に従ってセットを正規化/標準化する方法はありますか? Standardize または StringToWordVector フィルターでこれを行う方法がわかりません。