1

Dask で GaussianNb 分類器を使用してテスト セットを予測しようとしています。これは私のセットアップがどのように見えるかです:

X_train = pd.DataFrame.sparse.from_spmatrix(vectorizer.fit_transform(training['X_trn']))
y_train = encoder.fit_transform(training['y_trn'])
X_tst = pd.DataFrame.sparse.from_spmatrix(vectorizer.transform(testing['X_tst']))
y_tst = encoder.transform(testing['y_tst'])

clf = GaussianNB()
clf.fit(X_train, y_train)
clf.predict(X_tst)

すべての X & y 変数は Dask DataFrames ですが、次のエラーが発生します。

AssertionError: length mismatch: 20 vs. 824

トレーニング セットには fit_transform を使用し、テスト セットには fit_transform を慎重に使用しましたが、うまくいきませんでした。

4

0 に答える 0