4000 個の特徴と 35 個のサンプルを含むデータセットがあります。すべての機能は 1 ~ 3 の浮動小数点数です。例: 2.68244527684596。
このデータで分類子を機能させるのに苦労しています。knn、svm (linear、rbf、poly) を使用しました。それから私はノーマライゼーションについて学びました。それでも、私にとっては少し複雑で、このコードを機能させて適切な予測を行うことができません。
データを正規化するために使用しているコードは次のとおりです。
train_data = preprocessing.scale(train_data)
train_data = preprocessing.normalize(train_data,'l1',0)
分類しようとしているコードは次のとおりです。
# SVM with poly
svc1 = svm.SVC(kernel='poly',degree=3)
svc1.fit(train_data[:-5], train_labels[:-5])
print "Poly SVM: ",svc1.predict(train_data[-5:])
# SVM with rbf
svc2 = svm.SVC(kernel='rbf')
svc2.fit(train_data[:-5], train_labels[:-5])
print "RBF SVM: ",svc2.predict(train_data[-5:])
#SVM with linear
svc3 = svm.SVC(kernel='linear')
svc3.fit(train_data[:-5], train_labels[:-5])
print "Linear SVM: ",svc3.predict(train_data[-5:])
# KNN
knn = KNeighborsClassifier()
knn.fit(train_data[:-5], train_labels[:-5])
print "KNN :", knn.predict(train_data[-5:])
# Linear regression
logistic = linear_model.LogisticRegression()
print('LogisticRegression score: %f' % logistic.fit(train_data[5:], train_labels[5:]).score(train_data[0:4], train_labels[0:4]))
私は機械学習の初心者で、すべての概念についてもっと学ぶために一生懸命働いています。誰かが私を正しい方向に向けるかもしれないと思った。
注:サンプルは 35 個しかありません。これは課題の一部です。これ以上データを取得できません:(