apache-spark - csv ファイルを Spark データフレームにインポートする

翻译自：https://stackoverflow.com/questions/37286001 2016-05-17T20:49:09.137

492 次

pyspark を使用して csv ファイルをインポートしようとしています。これとこれを試しました。

最初の方法を使用して、csv ファイルを読み取ることができました。しかし、変数の数はかなり多いです。そのため、変数名を手動で言及するのは困難です。

2 番目の方法 (spark-csv) を使用すると、コマンドプロンプトを使用して csv ファイルを読み取ることができました。しかし、Jupyter ノートブックで同じ方法を使用しようとすると、エラーが発生します。

Py4JJavaError: An error occurred while calling o89.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org

このオプションも疲れました。「conf」ファイルを修正しました。しかし、Windows環境で「PACKAGES」と「PYSPARK_SUBMIT_ARGS」を設定する方法がわかりません。

Sparkデータフレームでcsvファイルを読み取る方法を教えてください。

ありがとう！

apache-spark - csv ファイルを Spark データフレームにインポートする

0 に答える 0

Related

Reference