生ログからデータを解析し、それを HIVE の ORC テーブルに書き込む 2 つのスクリプトがあります。あるスクリプトではより多くの列が作成され、別のスクリプトではより少ない列が作成されます。date
フィールドごとに分割された両方のテーブル。
その結果、さまざまなサイズのファイルを持つ ORC テーブルができました。列数が多いテーブルは多くの小さなファイル (各パーティション内のファイルあたり最大 4 MB) で構成され、列が少ないテーブルは少数の大きなファイル (各パーティション内のファイルあたり最大 250 MB) で構成されます。
ORCのstripe.size設定が原因だと思います。しかし、既存のテーブルのストライプのサイズを確認する方法がわかりません。「show create」や「describe」などのコマンドでは、カスタム設定は表示されません。つまり、テーブルのストライプ サイズは 256 MB にする必要があります。
既存のORCテーブルのstripe.sizeをチェックするためのアドバイスを探しています。または、ORC テーブル内のファイル サイズがそのテーブル内のデータにどのように依存するかを説明します。
Ps後で、Map Reduce を使用してそのテーブルから読み取っていて、大きなファイルを含むテーブルのレデューサーの数が少ない場合に問題になります。