私は Spark-DataFrame API の初心者です。
このコードを使用して、タブ区切りのcsvをSpark Dataframeにロードします
lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)
新しいファイルから Spark で DataFrame を作成し、組み込みメソッド toPandas() を使用して pandas に変換するとします。
- Pandas オブジェクトをローカル メモリに保存しますか?
- Pandas の低レベルの計算はすべて Spark によって処理されますか?
- すべてのパンダデータフレーム機能を公開していますか? (私はそう思います)
- DataFrame APIにあまり触れずに、それをPandasに変換して、それで完了することはできますか?