私は初心者であり、De Pauw と Wagacha (1998) の方法 (基本的には文字 n グラムの maxent) に従って語彙の単語を分類する必要があります。データは非常に大きい (500,000 エントリと数百万の n-gram)。そのため、サンプルを疎行列としてロードする必要があります。しかし、私は問題に遭遇しました。
sklearn.linear_model.LogisticRegression().fit(X,y)
scipy.sparse.csr.csr_matrix トレーニング ベクトルを受け入れないと述べています。このエラーが発生しました
Traceback (most recent call last): File "test-LR-4.py", line 8, in <module> clf.fit(X,y) File "/usr/lib/pymodules/python2.7/sklearn/svm/base.py", line 441, in fit % type(X)) ValueError: Training vectors should be array-like, not <class 'scipy.sparse.csr.csr_matrix'>
次のスクリプトの場合:
from sklearn.linear_model import LogisticRegression
import numpy as np
import scipy.sparse as sp
X = sp.csr_matrix([[0, 1, 2],[1, 2, 3],[3, 2, 1]])
y = np.array(range(3))
clf=LogisticRegression(dual=True)
clf.fit(X,y)