0

Scikit-learn でいくつかの分類を学ぼうとしています。しかし、このエラーの意味がわかりませんでした。

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

data_frame = pd.read_csv('data.csv', header=0) 
data_in_numpy = data_frame.values 

c = CountVectorizer()
c.fit_transform(data_in_numpy.data)

これはエラーをスローします:

NotImplementedError: multi-dimensional sub-views are not implemented

この問題を回避するにはどうすればよいですか? 私の csv ファイルの 1 つのレコードは次のようになります。

Time   Directors    Actors   Rating   Label
123    Abc, Def     A, B,c    7.2      1

このエラーは、Directors または Actors 列に複数の値があることが原因であると思います。どんな助けでも大歓迎です。ありがとう、

4

1 に答える 1

0

docstringによると、 sklearn.feature_extraction.text.CountVectorizer は次のようになります。

テキスト ドキュメントのコレクションをトークン カウントのマトリックスに変換する

では、なぜ数値を入力しているのだろうか。

文字列 (監督と俳優) のみを変換してみてください。

data_in_numpy['X'] = data_frame[['Directors', 'Actors']].apply(lambda x: ' '.join(x), axis=1)
data_in_numpy = data_frame['X'].values

ただし、最初に、カンマを削除してデータをクリーンアップすることをお勧めします。

data_frame['Directors'] = data_frame['Directors'].str.replace(',', ' ')
data_frame['Actors'] = data_frame['Actors'].str.replace(',', ' ')
于 2016-12-09T19:28:16.363 に答える