問題タブ [parquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
548 参照

parquet - Parquet が MR ジョブで概要ファイル (_metadata) を圧縮することは可能ですか?

現在、mapreduce ジョブを使用してデータを変換し、結果を Parquet 形式で保存しています。

サマリー ファイル (_metadata) も生成されます。しかし、問題は大きすぎることです(5G以上)。サイズを小さくする方法はありますか?

0 投票する
6 に答える
7419 参照

scala - Spark: DataFrame.saveAsTable または DataFrameWriter.options で渡すことができるオプションは何ですか?

開発者にも API ドキュメントにも、どのオプションを渡すことができるか、DataFrame.saveAsTableまたはDataFrameWriter.optionsそれらが Hive テーブルの保存に影響するかについての参照は含まれていません。

この質問への回答で、Spark がテーブルを保存する方法をより詳細に制御したい Spark 開発者に役立つ情報を集約し、おそらく、Spark のドキュメントを改善するための基盤を提供できることを願っています。

0 投票する
0 に答える
764 参照

r - Spark DataFrame の SparkR collect() および head() エラー: 引数は異なる行数を意味します

HDFS システムから寄木細工のファイルを読み取りました。

この問題についていくつかのスレッドを読みました。しかし、それは私の場合ではありません。実際、寄木細工のファイルからテーブルを読み取っただけhead()ですcollect()。私の寄木細工のテーブルは次のようなものです:

私はspark-1.4.0-bin-hadoop2.6を使用しており、これをクラスターで実行します

ローカルでも試しましたが、同じ問題があります。

また、Scala でこの寄木細工のファイルを読み取ろうとしました。そして、collect() 操作を実行します。すべてがうまくいっているようです。したがって、SparkR に固有の問題である必要があります。

0 投票する
1 に答える
690 参照

python - Python での Parquet ファイルの処理

Python でハイブから寄木細工のテーブルを処理しようとしていますが、いくつかのデータ型の問題に直面しています。たとえば、ハイブ寄木細工のテーブルに aa フィールドがある場合

decimal (10,2)、Pythonでファイルを読み込もうとしているときにジャンク値を与えます。これについていくつか入力してください。

0 投票する
0 に答える
109 参照

cascading - 寄木細工-カスケーディング-寄木細工のシンクとして使用できません

テキスト ファイルを hfs の場所にある寄木細工のファイルに変換しようとしています。しかし、シンクを作成して例外を下回るという問題に直面しています。手伝ってください。

コードスニペット:

public static final Fields INPUT_FIELDS = new Fields("sample_int", "sample_str", "sample_date","sample_deci", "par_key");
スキーム sinkScheme = new ParquetTupleScheme(INPUT_FIELDS); タップ シンク = 新しい Hfs(sinkScheme, parqOutputPath);

パイプ アセンブリ = new Pipe("namecp"); アセンブリ = 新しい各 (アセンブリ、新しい UnpackTupleFunction());

フロー flow = new Hadoop2MR1FlowConnector().connect("namecp", inData, sink, assembly);

例外:

スレッド「メイン」の例外 cascading.flow.planner.PlannerException: タップの名前: 'namecp'、シンクとして使用できません: Hfs["ParquetTupleScheme[['sample_int', 'sample_str', 'sample_date', 'sample_deci', 'par_key']->[ALL]]"]["/user/cloudera/parquet_hive_cascade"] cascading.flow.planner.FlowPlanner.verifyTaps(FlowPlanner.java:379) で cascading.flow.planner.FlowPlanner.verifyAllTaps( FlowPlanner.java:266) cascading.flow.planner.FlowPlanner.buildFlow(FlowPlanner.java:169) cascading.flow.FlowConnector.connect(FlowConnector.java:456) cascading.flow.FlowConnector.connect(FlowConnector.java) :445) cascading.flow.FlowConnector.connect(FlowConnector.java:421) で cascading.flow.FlowConnector.connect(FlowConnector.java:270) で cascading.flow.FlowConnector.connect(FlowConnector.java:215)

================================================== ==========================

サンプルデータ:

1|abc-xy|14-12-25|12.34|20150101 2|fbcxy|14-12-05|2.4|20150201 3|fbscxy|14-11-05|0.422|20150301 3|fbscxy|14-11-15 |2.0|20150301

4|fbscxy|14-11-30|42|20150401