まず、SMS のコーパスに当てはめます。
from sklearn.feature_extraction.text import CountVectorizer
clf = CountVectorizer()
X_desc = clf.fit_transform(X).toarray()
うまくいくようです:
X.shape = (5574,)
X_desc.shape = (5574, 8713)
しかし、その後、transform メソッドをテキスト行に適用しました。ご存知のように、結果として (, 8713) の形状になるはずですが、次のようになります。
str2 = 'Have you visited the last lecture on physics?'
print len(str2), clf.transform(str2).toarray().shape
52 (52、8713)
ここで何が起こっているのですか?もう1つ-すべての数字はゼロです