だから私はSparkで(SQLのものを使って)読んでいる寄木細工のファイルを1つだけ持っていて、それを100個のパーティションで処理したいと思っています。spark.default.parallelism
100 に設定してみました。また、寄木細工の圧縮を (gzip から) なしに変更しようとしました。何をしても、spark ジョブの最初のステージには 1 つのパーティションしかありません (シャッフルが発生すると、100 に再パーティション化され、その後明らかにはるかに高速になります)。
現在、いくつかのソース(以下のような)によると、寄木細工は(gzipを使用している場合でも)分割可能である必要があるため、私は非常に混乱しており、アドバイスが欲しい.
私はspark 1.0.0を使用していますが、どうやらデフォルト値spark.sql.shuffle.partitions
は200なので、そうではありません。実際、並列処理のすべてのデフォルトは 1 よりもはるかに大きいため、何が起こっているのかわかりません。