Spark 1.5.0 に 2 つの列を持つデータフレームがあります。次のクエリは正しく機能します。
sqlContext.sql("select id, value from table").show()
しかし、集計を行うと失敗します:
sqlContext.sql("select id, count(value) from table group by id").show()
エラーを返します:
WARN TaskSetManager: Lost task 13.0 in stage 10.0: Traceback
...
IndexError: list Index out of range
私count
は意図的に間違った型の可能性を排除するために使用しました。すべての列は文字列と見なされます (一部は数値ですが)。私はそれを間違って呼んでいますか?