次の SchemaRDD を検討してください。
schemaRdd = hiveContext.sql(myQuery)
次のことを試してみましたが、partitionByを使用できません。
numParts = 10
schemaRdd.partitionBy(numParts)
schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)
どちらも「行」オブジェクトに属性「_get_object_id」がありませんというエラーが発生します。
次に、SchemaRdd を次のように分割する方法 - 選択された #partitions - 特定のパーティショナー - _get_object_id の問題が解決された後、パーティショナーである 2 番目のパラメーターも提供したい