amazon-s3 - ハイブ結果セットへの列ヘッダーの追加

Question

Amazon EMR でハイブスクリプトを使用してデータを分析しています。

そして、出力を Amazon s3 バケットに転送しています。現在、ハイブスクリプトの結果には列ヘッダーが含まれていません。

私もこれを使ってみました：

 set hive.cli.print.header=true;

しかし、それは役に立ちません。あなたは私を助けることができます？

score 8 · Accepted Answer

ハイブスクリプトは正確にはどのようなものですか?

ハイブスクリプトからの出力にヘッダーデータが含まれていますか? 出力を s3 バケットにコピーすると失われますか?

正確に何をしているのかについてもう少し詳しく説明できれば、それは役に立ちます。

これらの詳細を知らなくても、ここで試してみることができます。

次のようにハイブスクリプトを作成します。

USE dbase_name:
SET hive.cli.print.header=true;
SELECT some_columns FROM some_table WHERE some_condition;

次に、スクリプトを実行します。

$ hive -f hive_script.hql > hive_output

次に、出力を s3 バケットにコピーします

$ aws s3 cp ./hive_output s3://some_bucket_name/foo/hive_output

score 3 · Accepted Answer

その直接的な方法はまだ不可能だと思います ( HIve: 列ヘッダーをローカルファイルに書き込みますか? )。いくつかの解決策は、結果DESCRIBE table_nameをファイルにエクスポートすることです。

$ hive -e 'DESCRIBE table_name' > file

そして、列名をデータファイルに追加するスクリプトを記述します。ＧＬ！

score 2 · Accepted Answer

今日、この問題に遭遇し、元のクエリとヘッダー行を作成する新しいダミークエリとの間で UNION ALL を実行することで、必要なものを取得できました。各セクションにソート列を追加し、ヘッダーを 0 に、データを 1 に設定して、そのフィールドでソートし、ヘッダー行が一番上に来るようにしました。

create table new_table as
select 
  field1,
  field2,
  field3
from
(
  select
    0 as sort_col,  --header row gets lowest number
    'field1_name' as field1,
    'field2_name' as field2,
    'field3_name' as field3
  from
    some_small_table  --table needs at least 1 row
  limit 1  --only need 1 header row
  union all
  select
    1 as sort_col,  --original query goes here
    field1,
    field2,
    field3
  from
    main_table
) a
order by 
  sort_col  --make sure header row is first

少しかさばりますが、少なくとも 1 つのクエリで必要なものを取得できます。

お役に立てれば！

score -1 · Accepted Answer

単なるタイプミス (またはバージョン依存の変更) かもしれませんが、次のようにするとうまくいきます。

set hive.cli.print.headers=true;

「ヘッダー」ではなく「ヘッダー」です

amazon-s3 - ハイブ結果セットへの列ヘッダーの追加

4 に答える 4

Related

Reference