0

次のディレクトリ構造の HDFS にデータがあります。

/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
                                 part-m-00003.bz2
.
.
.
.
/exported/2014/08/01/09/SEARCHES/part-m-00005 .bz2

各サブディレクトリには複数のパーツ ファイルがあります。

このデータセットを impala テーブルにロードしたいので、次のクエリを使用してテーブルを作成します。

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP, ..... url STRING,domain STRING) PARTITIONED BY (year INT, month INT, day INT. hour INT) '\t' で終了する行形式の区切られたフィールド。

それで

ALTER TABLE search ADD PARTITION (year=2014, month=08, day=01) LOCATION '/data/jobs/exported/2014/08/01/*/SEARCHES/';

しかし、次のエラーでロードできませんでした:

ERROR: AnalysisException: Failed to load metadata for table: magneticbi.search_mmx
CAUSED BY: TableLoadingException: Failed to load metadata for table: search_mmx
CAUSED BY: RuntimeException: Compressed text files are not supported: part-m-00000.bz2

これを行う正しい方法がわからない。

誰でもこれを手伝うことができますか?

ありがとう

4

1 に答える 1

2

オプションを説明するCloudera の表へのリンクを次に示します。要約する:

Impala は、次の圧縮コーデックをサポートしています。

  • きびきび。圧縮率と解凍速度のバランスが取れているのでおすすめです。Snappy 圧縮は非常に高速ですが、GZIP の方がスペースを大幅に節約できます。テキスト ファイルではサポートされていません。
  • GZIP。最高レベルの圧縮を実現する (したがって、ディスク容量を最大限に節約する) 必要がある場合に推奨されます。テキスト ファイルではサポートされていません。空気を抜く。テキスト ファイルではサポートされていません。
  • BZIP2。テキスト ファイルではサポートされていません。
  • LZO、テキスト ファイルのみ。Impala は LZO で圧縮されたテキスト テーブルにクエリを実行できますが、現在、テーブルを作成したり、テーブルにデータを挿入したりすることはできません。これらの操作を Hive で実行します。
于 2014-08-22T01:25:20.110 に答える