0

sklearn を使用して、単純ベイズ分類器の k 分割検証を実行しようとしています。

train = csv_io.read_data("../Data/train.csv")
target = np.array( [x[0] for x in train] )
train = np.array( [x[1:] for x in train] )

#In this case we'll use a random forest, but this could be any classifier
cfr = RandomForestClassifier(n_estimators=100)

#Simple K-Fold cross validation. 10 folds.
cv = cross_validation.KFold(len(train), k=10, indices=False)

#iterate through the training and test cross validation segments and
#run the classifier on each one, aggregating the results into a list
results = []
for traincv, testcv in cv:
    probas = cfr.fit(train[traincv], target[traincv]).predict_proba(train[testcv])
    results.append( myEvaluationFunc(target[testcv], [x[1] for x in probas]) )

#print out the mean of the cross-validated results
print "Results: " + str( np.array(results).mean() )

このウェブサイトhttps://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience/history/969からコードを見つけました。この例では、分類子は RandomForestClassifier です。独自の単純なベイズ分類子を使用したいと思いますが、この行で fit メソッドが何をするのかよくわかりません probas = cfr.fit(train[traincv], target[traincv]).predict_proba (電車[testcv])

4

1 に答える 1