csv - Hadoop の結果の名前を「.csv」拡張子のファイルに変更する方法

Question

.csv実際、私の意図は、この csv データを Rapidminer で視覚化する必要があるため、hadoop ジョブの出力の名前をファイルに変更することです。

How can i output hadoop result in csv formatでは、この目的のために次の 3 つの手順に従う必要があると言われています。

    1. Submit the MapReduce Job 
    2. Which will extract the output from HDFS using shell commands 
    3. Merge them together, rename as ".csv" and place in a directory where the visualization tool can access the final file

もしそうなら、どうすればこれを達成できますか？

更新 myjob.sh：

bin/hadoop jar /var/root/ALA/ala_jar/clsperformance.jar ala.clsperf.ClsPerf /user/root/ala_xmlrpt/Amrita\ Vidyalayam\,\ Karwar_Class\ 1\ B_ENG.xml  /user/root/ala_xmlrpt-outputshell4

bin/hadoop fs -get /user/root/ala_xmlrpt-outputshell4/part-r-00000 /Users/jobsubmit

cat /Users/jobsubmit/part-r-00000 /Users/jobsubmit/output.csv

表示:

The CSV file was empty and couldn’t be imported.

開こうとしたときoutput.csv。

解決

cat /Users/jobsubmit/part-r-00000> /Users/jobsubmit/output.csv

score 1 · Accepted Answer

まず、HDFS から MapReduce の結果を取得する必要があります

hadoop dfs -copyToLocal path_to_result/part-r-* local_path

次に、それらを単一のファイルにまとめます

cat local_path/part-r-* > result.csv

次に、MapReduce の結果フォーマットに依存します。既に csv フォーマットである場合は、完了です。そうでない場合は、おそらく sed や awk などの他のツールを使用して csv 形式に変換する必要があります。

csv - Hadoop の結果の名前を「.csv」拡張子のファイルに変更する方法

1 に答える 1

Related

Reference