ドキュメントの分類に libsvm を使用しています。
私は自分のプロジェクトでのみ svm.h と svm.cc を使用しています。
その構造体 svm_problem は、ゼロ以外の svm_node の配列を必要とするため、スパースを使用します。
[5,10] の範囲で言うと、tf-idf 単語のベクトルを取得します。[0,1] に正規化すると、すべての 5 が 0 になります。
svm_train に送信するときにこれらのゼロを削除する必要がありますか?
これらを削除しても情報が減少せず、結果が悪化することはありませんか?
0 ではなく 0.001 から正規化を開始する必要がありますか?
一般に、SVM では [0,1] で正規化しても情報は減らないのでしょうか?