python - train_test_split - チャンクサイズが不明な Dask 配列では操作できません

翻译自：https://stackoverflow.com/questions/55442530 2019-03-31T15:36:48.010

554 次

ディスク容量を節約するために dask parquet を使用したテキスト分類データセットがありますが、データセットをトレーニングに分割し、dask_ml.model_selection.train_test_split.

ddf = dd.read_parquet('/storage/data/cleaned')
y = ddf['category'].values
X = ddf.drop('category', axis=1).values
train, test = train_test_split(X, y, test_size=0.2)

その結果 TypeError: Cannot operate on Dask array with unknown chunk sizes.

助けてくれてありがとう。

python - train_test_split - チャンク サイズが不明な Dask 配列では操作できません

1 に答える 1

Related

Reference

python - train_test_split - チャンクサイズが不明な Dask 配列では操作できません