1

私はpythonとscikit-learnの両方にまったく慣れていません。私の目標は、深い信念ネットを使用して 6 つの異なる文字列ラベルに分割する分類を機能させることです。

ここに私のデータのいくつかのサンプルがあります:

uploadType,mainColorCode,allPageHeights,allPageWidths,mainAspectRatio,hasQrOrBarcode,mainFontSize,ocrWords,ocrNumber,pageCount,category

Filesystem,#FFFFFFFF,1115 1115,794 794,0.71,False,20.15,ocr 認識テキスト,14.4,2,class a Filesystem,#FFFFFFFF,1115 1115,794 794,0.71,False,20.15,ocr 認識テキスト,0, 2,クラス a ファイルシステム,#FFFFFFFF,1056,816,0.77,False,19.61,ocr 認識テキスト,204.2,1,クラス b

次のように、11 列 (10 の特徴と最後の 1 つはラベル) で構成される教師付きデータを取得します。

input_file = "Downloads/data.csv"
df = pd.read_csv(input_file, header = 0)
original_headers = list(df.columns.values)
df = df._get_numeric_data()
numeric_headers = list(df.columns.values)
reverse_df = df[numeric_headers]
numpy_array = reverse_df.as_matrix()
X, Y = numpy_array[:,1:], numpy_array[:,0]

それから私は:

# Splitting data
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

# Data scaling
min_max_scaler = MinMaxScaler()
X_train = min_max_scaler.fit_transform(X_train)

# Training
classifier = SupervisedDBNClassification(hidden_layers_structure=[256, 256],
                                         learning_rate_rbm=0.01,
                                         learning_rate=0.001,
                                         n_epochs_rbm=20,
                                         n_iter_backprop=100,
                                         l2_regularization=0.0,
                                         activation_function='relu')
classifier.fit(X_train, Y_train)

# Test
X_test = min_max_scaler.transform(X_test)
Y_pred = classifier.predict(X_test)
print 'Done.\nAccuracy: %f' % accuracy_score(Y_test, Y_pred)

しかし、それは私に言います: ValueError:

未知とバイナリの混在を処理できません

データに対して次のようなステートメントを実行する必要があると思いますが、データに対して正しく実行する方法がわかりません。

le = preprocessing.LabelEncoder()
le.fit(["Class A", "Class B", "Class C", "Class D", "Class E", "Class F"])

ありがとうございました!

4

0 に答える 0