hadoop - HDFS からローカルファイルシステムへの Parquet データの収集

Question

HDFS (メタデータファイル + 5 つのパーツ) に分散された Parquet データセットが与えられた場合、.parquetパーツを正しくマージしてデータをローカルファイルシステムに収集する方法は? dfs -getmerge ...機能しません-メタデータを実際の寄木細工のファイルとマージします..

score 2 · Accepted Answer

解決策を提供する Apache Spark API を使用する方法がありますが、サードパーティツールを使用しないより効率的な方法が存在する可能性があります。

spark> val parquetData = sqlContext.parquetFile("pathToMultipartParquetHDFS")       
spark> parquet.repartition(1).saveAsParquetFile("pathToSinglePartParquetHDFS")

bash> ../bin/hadoop dfs -get pathToSinglePartParquetHDFS localPath

Spark 1.4 以降、DataFrame::coalesce(1)代わりに使用することをお勧めしますDataFrame::repartition(1)

score 1 · Accepted Answer

あなたは豚を使うことができます

A = LOAD '/path/to parquet/files' USING parquet.pig.ParquetLoader as (x,y,z) ;
STORE A INTO 'xyz path' USING PigStorage('|');

その上にImpalaテーブルを作成してから、使用することができます

impala-shell -e "query" -o <output>

Mapreduce も同じように使用できます

hadoop - HDFS からローカル ファイル システムへの Parquet データの収集

3 に答える 3

Related

Reference

hadoop - HDFS からローカルファイルシステムへの Parquet データの収集