0

こんにちは、dask ml は初めてです。dask ml を使用してロジスティック回帰モデルをトレーニングし、ツイートのセンチメントを予測しようとしています。pandas データフレームを dask データフレームに変換しました。その後、トレインテストの分割を行いました。その後、X_train と X_test でハッシュ ベクトライザーを使用しました。Train_X_vect.compute().shape私は形状をチェックするために行を実行し、(180224, 7000)y_train.compute().shapeに返された場所に戻り(180224,) ました。ロジスティック回帰モデルに適合させるために、「未知のチャンクを持つ配列にインターセプトを追加できません」というエラーが表示されます。これは私のコードです:

from dask_ml.feature_extraction.text import HashingVectorizer
from dask_ml.model_selection import train_test_split
from dask_ml.linear_model import LogisticRegression
dask_df = dd.from_pandas(pandas_df,npartitions=4)
X_train, X_test, y_train, y_test = train_test_split(dask_df ["preprocess"], dask_df ["target"],random_state=42)
vectorizer = HashingVectorizer(n_features=7000)
vectorizer.fit(X_train)
Train_X_vect = vectorizer.transform(X_train)
Test_X_vect = vectorizer.transform(X_test)
lr = LogisticRegression()
lr.fit(Train_X_vect,y_train)

「fit_intercept = False」も使用しましたが、次のエラーが発生します:「IndexError: Index dimension must be <= 2」

私が間違っていることを教えてください。どうすれば修正できますか? ありがとうございます

4

1 に答える 1