0

私はsklearnと機械学習が初めてです。ID-2001-0001、ID-category_1 ID-2002 - 0002、ID-category_2 のタイプのマッピングを含む csv ファイルがあります。. 1010 の一意の ID と 123 の一意のカテゴリがあります。今、私は約 1000 の他の ID を分類したいと考えています。すでに分類されている 800/1010 ID の分類器をトレーニングしたいと考えています。私はsklearnを使用しています。SVM を使用すると、残りの 200 個の ID について同じ予測が得られます。GradientBoosting を使用すると、約 1.4% の精度が得られます。これはデータサイズが小さいためでしょうか。基本的には、100 次元のベクトルと ID-2001-0001 (word2vec) とそれに対応するカテゴリを fit メソッドに渡します。

from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
clf = GradientBoostingClassifier()
clf.fit(IDVectorMatrix,categoryMatrix)     #IDVectorMatrix is 100-dimensional matrix from pre-trained word2vec model. model['ID-2001-0001']
result = clf.predict(categoryTestingMatrix)

私はこの分類を正しく行っていますか? または、何か不足していますか? どんな助けにも感謝します。ありがとう

4

0 に答える 0