pyspark を使用して csv ファイルをインポートしようとしています。これとこれを試しました。
最初の方法を使用して、csv ファイルを読み取ることができました。しかし、変数の数はかなり多いです。そのため、変数名を手動で言及するのは困難です。
2 番目の方法 (spark-csv) を使用すると、コマンド プロンプトを使用して csv ファイルを読み取ることができました。しかし、Jupyter ノートブックで同じ方法を使用しようとすると、エラーが発生します。
Py4JJavaError: An error occurred while calling o89.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
このオプションも疲れました。「conf」ファイルを修正しました。しかし、Windows環境で「PACKAGES」と「PYSPARK_SUBMIT_ARGS」を設定する方法がわかりません。
Sparkデータフレームでcsvファイルを読み取る方法を教えてください。
ありがとう!