問題タブ [dask-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
454 参照

python - インデックスがカテゴリカルである場合に、dask データフレームを計算/マージする際の問題

dask を使用して、メモリに収まらないデータセットを処理しようとしています。さまざまな「ID」の時系列データです。dask のドキュメントを読んだ後、「寄木細工」ファイル形式と「ID」によるパーティション分割を使用することにしました。

ただし、寄木細工から読み取ってインデックスを設定しているときに、「TypeError: 順序付けられたカテゴリを結合するには、すべてのカテゴリが同じでなければならない」というエラーが発生しましたが、これは自分で解決できませんでした。

このコードは、私が抱えている問題を再現しています:

この時点で、次のエラーが表示されます。

私はそれからしました:

そして、 を使用しようとするとdf.compute(scheduler="processes")、前に述べた TypeError が発生します。

与えます:

驚くべきことに、 、 を使用するかdf.compute(scheduler="threads")df.compute(scheduler="synchronous")またはインデックスをまったく設定しないと、適切に機能します。

ただし、これらのデータセットのいくつかを実際にマージしようとしており、インデックスを設定すると何も設定しないよりも高速になると考えていたため、これは私がすべきことではないようです。(この方法でインデックス付けされた 2 つのデータフレームをマージしようとすると、まったく同じエラーが発生します)

df._meta を検査しようとしましたが、私のカテゴリが「既知」であることがわかりました。タスクカテゴリ

私はまた、似ているように見えるが、どういうわけか解決策を見つけられなかったということについて、このgithubの投稿を読みました。

ご協力いただきありがとうございます、