6

しばらくの間、 pysparkジョブの「タスクがまだ開始されていません」と頭を悩ませた後、問題は次のように分離されました。

作品:

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()

repartition() を追加すると、「タスクがまだ開始されていません」とハングします。

ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()

これは、CDH5 にバンドルされている 1.2.0 にあります。

4

0 に答える 0