次のディレクトリ構造の HDFS にデータがあります。
/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2
part-m-00001.bz2
/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2
part-m-00001.bz2
part-m-00003.bz2
.
.
.
.
/exported/2014/08/01/09/SEARCHES/part-m-00005 .bz2
各サブディレクトリには複数のパーツ ファイルがあります。
このデータセットを impala テーブルにロードしたいので、次のクエリを使用してテーブルを作成します。
CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT. hour INT) '\t' で終了する行形式の区切られたフィールド。
それで
ALTER TABLE search ADD PARTITION (year=2014, month=08, day=01) LOCATION '/data/jobs/exported/2014/08/01/*/SEARCHES/';
しかし、次のエラーでロードできませんでした:
ERROR: AnalysisException: Failed to load metadata for table: magneticbi.search_mmx
CAUSED BY: TableLoadingException: Failed to load metadata for table: search_mmx
CAUSED BY: RuntimeException: Compressed text files are not supported: part-m-00000.bz2
これを行う正しい方法がわからない。
誰でもこれを手伝うことができますか?
ありがとう