10

現在、EdX で Spark 入門コースを行っています。私のコンピューターに Databricks からデータフレームを保存する可能性はありますか?

この質問をしている理由は、このコースでは Databricks ノートブックが提供されているためです。これは、コース終了後はおそらく機能しません。

ノートブック データは、コマンドを使用してインポートされます。

log_file_path = 'dbfs:/' + os.path.join('databricks-datasets', 'cs100', 'lab2', 'data-001', 'apache.access.log.PROJECT')

私はこの解決策を見つけましたが、うまくいきません:

df.select('年','モデル').write.format('com.databricks.spark.csv').save('newcars.csv')

4

3 に答える 3

32

Databricks はクラウド VM を実行しており、ローカル マシンがどこにあるかはわかりません。DataFrame の CSV 結果を保存する場合は、実行することがdisplay(df)でき、結果をダウンロードするオプションがあります。

ここに画像の説明を入力

于 2016-08-01T19:15:03.847 に答える
12

また、ファイル ストアに保存し、そのハンドルを介してダウンロードすることもできます。

df.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("dbfs:/FileStore/df/df.csv")

Databricks GUI でハンドルを見つけるには、[データ] > [データの追加] > [DBFS] > [FileStore] > [your_subdirectory] ​​> [part-00000-...] に移動します。

この場合はダウンロードします (Databricks 西ヨーロッパ インスタンス用)。

https://westeurope.azuredatabricks.net/files/df/df.csv/part-00000-tid-437462250085757671-965891ca-ac1f-4789-85b0-akq7bc6a8780-3597-1-c000.csv

私はそれをテストしていませんが、@MrChristineからの言及された回答を介してダウンロードする場合の100万行の行制限はここでは適用されないと思います。

于 2019-08-16T10:51:47.557 に答える
0

これを試して。

df.write.format("com.databricks.spark.csv").save("file:///home/yphani/datacsv")

これにより、ファイルが Unix サーバーに保存されます。

/home/yphani/datacsv のみを指定すると、HDFS 上のパスが検索されます。

于 2016-07-27T19:39:14.260 に答える