python - Pyspark は、「Row」オブジェクトには partitionBy() の属性「_get_object_id」がありません

翻译自：https://stackoverflow.com/questions/28977981 2015-03-11T03:17:55.327

2907 次

次の SchemaRDD を検討してください。

schemaRdd = hiveContext.sql(myQuery)

次のことを試してみましたが、partitionByを使用できません。

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

どちらも「行」オブジェクトに属性「_get_object_id」がありませんというエラーが発生します。

次に、SchemaRdd を次のように分割する方法 - 選択された #partitions - 特定のパーティショナー - _get_object_id の問題が解決された後、パーティショナーである 2 番目のパラメーターも提供したい

0 に答える 0