0

まず、SMS のコーパスに当てはめます。

from sklearn.feature_extraction.text import CountVectorizer
clf = CountVectorizer()
X_desc = clf.fit_transform(X).toarray()

うまくいくようです:

X.shape = (5574,)
X_desc.shape = (5574, 8713)

しかし、その後、transform メソッドをテキスト行に適用しました。ご存知のように、結果として (, 8713) の形状になるはずですが、次のようになります。

str2 = 'Have you visited the last lecture on physics?'
print len(str2), clf.transform(str2).toarray().shape

52 (52、8713)

ここで何が起こっているのですか?もう1つ-すべての数字はゼロです

4

1 に答える 1