python - CountVectorizer: 変換メソッドは、単一のテキスト行で多次元配列を返します

翻译自：https://stackoverflow.com/questions/40075497 2016-10-16T21:07:33.900

1457 次

まず、SMS のコーパスに当てはめます。

from sklearn.feature_extraction.text import CountVectorizer
clf = CountVectorizer()
X_desc = clf.fit_transform(X).toarray()

うまくいくようです：

X.shape = (5574,)
X_desc.shape = (5574, 8713)

しかし、その後、transform メソッドをテキスト行に適用しました。ご存知のように、結果として (, 8713) の形状になるはずですが、次のようになります。

str2 = 'Have you visited the last lecture on physics?'
print len(str2), clf.transform(str2).toarray().shape

52 (52、8713)

ここで何が起こっているのですか？もう1つ-すべての数字はゼロです

1 に答える 1