parquet - Parquet が MR ジョブで概要ファイル (_metadata) を圧縮することは可能ですか?

Question

現在、mapreduce ジョブを使用してデータを変換し、結果を Parquet 形式で保存しています。

サマリーファイル (_metadata) も生成されます。しかし、問題は大きすぎることです（5G以上）。サイズを小さくする方法はありますか？

score 1 · Accepted Answer

Alex Levenson と Ryan Blue のクレジット:

アレックス・レベンソン：

サブミッターノードで読み取る代わりに、サマリーファイルの読み取りをマッパーにプッシュできます。

ParquetInputFormat.setTaskSideMetaData(conf, true);

(Ryan Blue: これは 1.6.0 以降のデフォルトです)

または、構成で「parquet.task.side.metadata」を true に設定します。同様の問題がありました。デフォルトでは、クライアントはサブミッターノードでサマリーファイルを読み取りますが、これには多くの時間とメモリが必要です。このフラグは、マッパーのファイルフッターから個々のファイルのメタデータを読み取る代わりに、問題を修正します (各マッパーは必要なメタデータのみを読み取ります)。

過去に話したもう 1 つのオプションは、このメタデータファイルの作成をまったく無効にすることです。これは、作成にもコストがかかる可能性があるためです。タスク側のメタデータアプローチを使用する場合は、決して使用済み。

(Ryan Blue: ファイルを抑制するオプションがあります。これをお勧めします。ファイルのメタデータがタスクで処理されるようになったので、サマリーファイルはあまり必要ありません。)

parquet - Parquet が MR ジョブで概要ファイル (_metadata) を圧縮することは可能ですか?

1 に答える 1

Related

Reference