次のようにストップワードを単純に削除するテキスト前処理の機能があります。
def text_preprocessing():
df['text'] = df['text'].apply(word_tokenize)
df['text']=df['text'].apply(lambda x: [item for item in x if item not in stopwords])
new_array=[]
for keywords in df['text']: #converts list of words into string
P=" ".join(str(x) for x in keywords)
new_array.append(P)
df['text'] = new_array
return df['text']
私が本質的に行った機能マトリックスを提供text_preprocessing()
する別の関数に渡したい:-tf_idf()
def tf_idf():
tfidf = TfidfVectorizer()
feature_array = tfidf.fit_transform(text_preprocessing)
keywords_data=pd.DataFrame(feature_array.toarray(), columns=tfidf.get_feature_names())
return keywords_data
次のようなエラーが発生しましたTypeError: 'function' object is not iterable