0

生ログからデータを解析し、それを HIVE の ORC テーブルに書き込む 2 つのスクリプトがあります。あるスクリプトではより多くの列が作成され、別のスクリプトではより少ない列が作成されます。dateフィールドごとに分割された両方のテーブル。

その結果、さまざまなサイズのファイルを持つ ORC テーブルができました。列数が多いテーブルは多くの小さなファイル (各パーティション内のファイルあたり最大 4 MB) で構成され、列が少ないテーブルは少数の大きなファイル (各パーティション内のファイルあたり最大 250 MB) で構成されます。

ORCのstripe.size設定が原因だと思います。しかし、既存のテーブルのストライプのサイズを確認する方法がわかりません。「show create」や「​​describe」などのコマンドでは、カスタム設定は表示されません。つまり、テーブルのストライプ サイズは 256 MB にする必要があります。

既存のORCテーブルのstripe.sizeをチェックするためのアドバイスを探しています。または、ORC テーブル内のファイル サイズがそのテーブル内のデータにどのように依存するかを説明します。

Ps後で、Map Reduce を使用してそのテーブルから読み取っていて、大きなファイルを含むテーブルのレデューサーの数が少ない場合に問題になります。

4

1 に答える 1

0

Hive ORC File Dump Utility: ORC File Dump Utility を試してください。

于 2016-04-08T16:49:14.623 に答える