17

ツェッペリン初心者です。パンダのデータフレームがあるユースケースがあります。組み込みの zeppelin チャートを使用してコレクションを視覚化する必要があります。ここでは明確なアプローチはありません。私の理解では、ツェッペリンを使用すると、RDD 形式であればデータを視覚化できます。だから、私は pandas データフレームを spark データフレームに変換し、(SQL を使用して) いくつかのクエリを実行したかったので、視覚化します。まず、パンダのデータフレームをスパークのデータフレームに変換しようとしましたが、失敗しました

%pyspark
import pandas as pd
from pyspark.sql import SQLContext
print sc
df = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print type(df)
print df
sqlCtx = SQLContext(sc)
sqlCtx.createDataFrame(df).show()

そして、私は以下のエラーを得ました

Traceback (most recent call last): File "/tmp/zeppelin_pyspark.py", 
line 162, in <module> eval(compiledCode) File "<string>", 
line 8, in <module> File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 406, in createDataFrame rdd, schema = self._createFromLocal(data, schema) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 322, in _createFromLocal struct = self._inferSchemaFromList(data) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/context.py", 
line 211, in _inferSchemaFromList schema = _infer_schema(first) File "/home/bala/Software/spark-1.5.0-bin-hadoop2.6/python/pyspark/sql/types.py", 
line 829, in _infer_schema raise TypeError("Can not infer schema for type: %s" % type(row)) 
TypeError: Can not infer schema for type: <type 'str'> 

誰かがここで私を助けてくれますか? また、どこか間違っている場合は修正してください。

4

3 に答える 3