Gutenberg (または nltk から設定された任意のデータ) から取得した大きなコーパスで CountVectorizer を使用します。このコーパスには電子ブックがあります。それらの本のすべての文章を同じリストに集めたい。のようなもの: listsentences=["SENTENCE#1" ,"SENTENCE#2" ,"SENTENCE#3" ...] 文リストの作成方法に行き詰まっています。どんな助けでも大歓迎です!これは私のコードがどのように見えるかです:
from nltk.corpus import gutenberg
text=nltk.corpus.gutenberg.fileids()
gutenberg.fileids()
emma=gutenberg.sents()
vectorizer=CountVectorizer(min_df = 1, stop_words = 'english')
dtm= vectorizer.fit_transform(emma)
pd.DataFrame(dtm.toarray(),columns=vectorizer.get_feature_names()).head(10)
vectorizer.get_feature_names()
lsa = TruncatedSVD(3, algorithm = 'arpack')
dtm_lsa = lsa.fit_transform(dtm)
dtm_lsa = Normalizer(copy=False).fit_transform(dtm_lsa)