Amazon S3 に保存されているデータを処理するために (外部テーブルを使用して) ハイブを使用しています。
私のデータは次のように分割されています:
group/team/dt/
(たとえば、データファイルはパスに保存されている可能性がありますgroup=myGroup/team=myTeam/dt=20120603
)
複数のチーム (異なるグループ) のデータを処理したいと考えています。RCOVER PARTITIONS には時間がかかるため、グループとチームの値に基づいて複数のパーティションをハイブ テーブルに追加したいと考えています (つまり、そのチームで利用可能なすべての日付のグループとチームの負荷データが与えられた場合)。
私が探している機能は次のとおりです。
CREATE EXTERNAL TABLE myData(
attr1 string, attr2 string, attr3 string)
PARTITIONED BY (group string, team string, dt string )
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://myBucket/${DATA_ROOT_DIR}';
-- Add paritions without specifying values for dt
ALTER TABLE myData ADD PARTITION (group='group1',team='team1') ;
ALTER TABLE myData ADD PARTITION (group='group2',team='team2') ;
ありがとう!