apache-spark - spark から hdfs にデータをテキストファイルとして保存する

Question

次のクエリを使用してpySparkデータを処理しました。sqlContext

(sqlContext.sql("select LastUpdate,Count(1) as Count" from temp_t)
           .rdd.coalesce(1).saveAsTextFile("/apps/hive/warehouse/Count"))

次の形式で格納されます。

Row(LastUpdate=u'2016-03-14 12:27:55.01', Count=1)
Row(LastUpdate=u'2016-02-18 11:56:54.613', Count=1)
Row(LastUpdate=u'2016-04-13 13:53:32.697', Count=1)
Row(LastUpdate=u'2016-02-22 17:43:37.257', Count=5)

しかし、データをHiveテーブルに保存したい

LastUpdate                           Count

2016-03-14 12:27:55.01                   1
.                                        .
.                                        .

Hiveでテーブルを作成する方法は次のとおりです。

CREATE TABLE Data_Count(LastUpdate string, Count int )
ROW FORMAT DELIMITED fields terminated by '|';

多くのオプションを試しましたが、成功しませんでした。これについて私を助けてください。

score 0 · Accepted Answer

テーブルを作成したので、生成したデータをテーブルに入力する必要があります。

これはSpark HiveContextから実行できると思います

LOAD DATA INPATH '/apps/hive/warehouse/Count' INTO TABLE Data_Count

または、データの上にテーブルを作成することもできます

CREATE EXTERNAL TABLE IF NOT Exists Data_Count(
    LastUpdate DATE, 
    Count INT
   ) 
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION '/apps/hive/warehouse/Count';

apache-spark - spark から hdfs にデータをテキスト ファイルとして保存する

2 に答える 2

Related

Reference

apache-spark - spark から hdfs にデータをテキストファイルとして保存する