2

次の SchemaRDD を検討してください。

schemaRdd = hiveContext.sql(myQuery)

次のことを試してみましたが、partitionByを使用できません。

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

どちらも「行」オブジェクトに属性「_get_object_id」がありませんというエラーが発生します。

次に、SchemaRdd を次のように分割する方法 - 選択された #partitions - 特定のパーティショナー - _get_object_id の問題が解決された後、パーティショナーである 2 番目のパラメーターも提供したい

4

0 に答える 0