テキストの感情分析を実行するために scikit-learn を使用しています。現在の私の機能は、単語の頻度カウントです。
以下を実行すると、平均 F 値は約 59% になります。
from sklearn import svm
clf = svm.LinearSVC(class_weight='auto');
clf.fit(Xfeatures, YLabels);
......
predictedLabels = clf.predict(XTestFeatures);
しかし、StandardScalar() を使用して特徴ベクトルをスケーリングすると、平均 F 値は 49% に低下します。
from sklearn import svm
clf = svm.LinearSVC(class_weight='auto');
Xfeatures = scaler.fit_transform(Xfeatures);
clf.fit(Xfeatures, YLabels);
......
XTestFeatures = scaler.transform(XTestFeatures);
predictedLabels = clf.predict(XTestFeatures);
スケーリングによって SVM のパフォーマンスが向上するはずですが、ここではパフォーマンスが低下しているようです。なぜこれが起こるのですか?どうすれば正しくできますか?