最初の要素が結果であり、残りの要素が特徴ベクトルを構成する CSV ファイルにトレーニング データがあります。
Weka を使用して、このトレーニング データでさまざまなアルゴリズムをトレーニングおよびテストしていました。しかし今、トレーニング済みのモデルを複数回使用して、トレーニング データの一部ではない特徴ベクトルをテストしたいと考えており、その方法がわかりません。scikit-learn を使えばできるのではないかと思います。助けてください。
最初の要素が結果であり、残りの要素が特徴ベクトルを構成する CSV ファイルにトレーニング データがあります。
Weka を使用して、このトレーニング データでさまざまなアルゴリズムをトレーニングおよびテストしていました。しかし今、トレーニング済みのモデルを複数回使用して、トレーニング データの一部ではない特徴ベクトルをテストしたいと考えており、その方法がわかりません。scikit-learn を使えばできるのではないかと思います。助けてください。
たとえば、分類問題の場合は、データをスライスするだけです。
>>> import numpy as np
>>> from sklearn.ensemble import ExtraTreesClassifier
>>> data_train = np.loadtxt('data_train.csv', delimiter=',')
>>> X = data_train[:, 1:]
>>> y = data_train[:, 0].astype(np.int)
>>> clf = ExtraTreesClassifier(n_estimators=100).fit(X, y)
次に、最初の列にターゲット ラベルがないテスト データで予測を行います。
>>> data_test = np.loadtxt('data_test.csv', delimiter=',')
>>> print(clf.predict(data_test))