0

私の現在のシステムはこのように設計されています。

ログ パーサーは、TSV 形式で 5 分ごとに生ログを解析し、HDFS に出力します。HDFS の TSV ファイルから Hive テーブルを作成しました。

いくつかのベンチマークから、Parquet は最大 30 ~ 40% のスペース使用量を節約できることがわかりました。また、Hive 0.13 以降、Parquet ファイルから Hive テーブルを作成できることもわかりました。TSV を Parquet ファイルに変換できるかどうかを知りたいです。

どんな提案でも大歓迎です。

4

1 に答える 1