dask DataFrame に変換して castra に保存しようとしている json ファイルのディレクトリがあります。それらの間に O(10**7) json レコードを含む 200 個のファイルがあります。コードは非常に単純で、主にチュートリアルの例に従っています。
import dask.dataframe as dd
import dask.bag as db
import json
txt = db.from_filenames('part-*.json')
js = txt.map(json.loads)
df = js.to_dataframe()
cs=df.to_castra("data.castra")
32 コアのマシンで実行していますが、コードは 1 つのコアしか 100% 使用していません。ドキュメントからの私の理解は、このコードが並行して実行されるということです。なぜそうではないのですか?私は何かを誤解しましたか?