しばらくの間、 pysparkジョブの「タスクがまだ開始されていません」と頭を悩ませた後、問題は次のように分離されました。
作品:
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()
repartition() を追加すると、「タスクがまだ開始されていません」とハングします。
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()
これは、CDH5 にバンドルされている 1.2.0 にあります。