apache-spark - repartition() を含む Spark ジョブの「タスクはまだ開始されていません」

翻译自：https://stackoverflow.com/questions/28920939 2015-03-07T22:44:48.533

1068 次

しばらくの間、 pysparkジョブの「タスクがまだ開始されていません」と頭を悩ませた後、問題は次のように分離されました。

作品:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

repartition() を追加すると、「タスクがまだ開始されていません」とハングします。

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

これは、CDH5 にバンドルされている 1.2.0 にあります。

0 に答える 0