0

YARN クラスターの Spark 1.3 で Pyspark を使用しています。管理ノードを使用して Pyspark コマンドを実行し、DataFrame を作成しています。次に、管理ノードで Spark データフレームを単一の CSV に移動しようとしていますが、ファイルが見つかりません。「ホーム」ディレクトリを指定してもうまくいかないようで、一貫して LOG メッセージが表示されるため、クラスタ内の別のノードでファイルが完了していると思われます。それでも、.csv ファイルを見つけることなく、すべてのノードを検索しました。「.save」コマンドを複数回実行しようとすると、追加できないと表示されるため、ファイルが実際にどこかに作成されていると思われます。csv コマンドを実行した後のログの一部を次に示します。

INFO TaskSetManager: Finished task 0.0 in stage 8.0 (TID 6) in 2646 ms on   <*child node DNS server*> (1/1)
INFO YarnScheduler: Removed TaskSet 8.0, whose tasks have all completed, from pool
INFO DAGScheduler: Job 4 finished: saveAsTextFile at package.scala:169, took 2.715508 s

コマンドラインでこれを起動しています:

pyspark --packages com.databricks:spark-csv_2.11:1.2.0

そして、以下を実行して Dataframe を作成し、PySpark で Export を試みます。

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

smData = sqlContext.parquetFile("hdfs://<MGMT NODE IP and Folder directory>") 
smData.registerTempTable("temp")
Minutes = sqlContext.sql("Select alt,tail From temp Where year = 2015 And month = 9 And day = 16 and asa is not null and CAST(alt as int) > 3046")
Minutes.save('minutes.csv','com.databricks.spark.csv')
4

0 に答える 0