0

こんにちは私はツイートを7つのクラスに分類しています。約250.000のトレーニングツイートと別の250.000のテストツイートがあります。私のコードは以下にあります。training.pklはトレーニングツイート、testing.pklはテストツイートです。ご覧のとおり、対応するラベルもあります。

コードを実行すると、テストセット(生)を機能スペースに変換するのに14.9649999142秒かかることがわかります。また、テストセット内のすべてのツイートを分類するのにかかる時間(0.131999969482秒)も測定します。

このフレームワークが0.131999969482秒で約250.000のツイートを分類できることは、私にはほとんどありそうにありませんが。私の質問は今です、これは正しいですか?

file = open("training.pkl", 'rb')
training = cPickle.load(file)
file.close()


file = open("testing.pkl", 'rb')
testing = cPickle.load(file)
file.close()

file = open("ground_truth_testing.pkl", 'rb')
ground_truth_testing = cPickle.load(file)
file.close()

file = open("ground_truth_training.pkl", 'rb')
ground_truth_training = cPickle.load(file)
file.close()


print 'data loaded'
tweetsTestArray = np.array(testing)
tweetsTrainingArray = np.array(training)
y_train = np.array(ground_truth_training)


# Transform dataset to a design matrix with TFIDF and 1,2 gram
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,  ngram_range=(1, 2))

X_train = vectorizer.fit_transform(tweetsTrainingArray)
print "n_samples: %d, n_features: %d" % X_train.shape


print 'COUNT'
_t0 = time.time()
X_test = vectorizer.transform(tweetsTestArray)
print "n_samples: %d, n_features: %d" % X_test.shape
_t1 =  time.time()

print  _t1 - _t0
print 'STOP'

# TRAINING & TESTING

print 'SUPERVISED'
print '----------------------------------------------------------'
print 

print 'SGD'

#Initialize Stochastic Gradient Decent
sgd = linear_model.SGDClassifier(loss='modified_huber',alpha = 0.00003, n_iter = 25)

#Train
sgd.fit(X_train, ground_truth_training)

#Predict

print "START COUNT"
_t2 = time.time()
target_sgd = sgd.predict(X_test)
_t3 = time.time()

print _t3 -_t2
print "END COUNT"

# Print report
report_sgd = classification_report(ground_truth_testing, target_sgd)
print report_sgd
print

X_trainが印刷されました

 <248892x213162 sparse matrix of type '<type 'numpy.float64'>'
    with 4346880 stored elements in Compressed Sparse Row format>

X_train printen

 <249993x213162 sparse matrix of type '<type 'numpy.float64'>'
    with 4205309 stored elements in Compressed Sparse Row format>
4

1 に答える 1

2

X_train抽出されたX_testスパース行列の非ゼロ特徴の形状と数はどのくらいですか?それらはあなたのコーパスの単語数に近似的に関連していますか?

分類は、線形モデルの特徴抽出よりもはるかに高速であると予想されます。ドット積を計算しているだけなので、ゼロ以外の数(つまり、テストセット内の単語の数)と直接線形になります。

編集:スパース行列の内容に関する統計を取得するには、次のようにX_trainX_testます。

>>> print repr(X_train)
>>> print repr(X_test)

編集2:あなたの数字はよさそうだ。数値特徴の線形モデル予測は、実際、特徴抽出よりもはるかに高速です。

>>> from sklearn.datasets import fetch_20newsgroups
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> twenty = fetch_20newsgroups()
>>> %time X = TfidfVectorizer().fit_transform(twenty.data)
CPU times: user 10.74 s, sys: 0.32 s, total: 11.06 s
Wall time: 11.04 s

>>> X
<11314x56436 sparse matrix of type '<type 'numpy.float64'>'
    with 1713894 stored elements in Compressed Sparse Row format>
>>> from sklearn.linear_model import SGDClassifier

>>> %time clf = SGDClassifier().fit(X, twenty.target)
CPU times: user 0.50 s, sys: 0.01 s, total: 0.51 s
Wall time: 0.51 s

>>> %time clf.predict(X)
CPU times: user 0.10 s, sys: 0.00 s, total: 0.11 s
Wall time: 0.11 s
array([7, 4, 4, ..., 3, 1, 8])
于 2013-01-09T11:51:53.700 に答える