hadoop - INSERT OVERWRITE DIRECTORY を使用しました。どうすればそのファイルにアクセスできますか?

Question

明らかに HDFS の新機能であり、これに関するヘルプを得るために何を検索すればよいかさえわかりません。

私のテーブルのほとんどは、HDFS の user/hive/warehouse の下のデータベース内にあります。書き込みアクセス権のあるディレクトリに SELECT の結果を保存したかったので、それを user/Jon/folder_name に保存したところ、うまくいきました。

このファイルのデータにアクセスするにはどうすればよいでしょうか。作業ディレクトリは user/hive/warehouse で、/Jon/folder_name フォルダー内にテーブルを作成しませんでした (単なるファイルです)。folder_name から基本的な SELECT count(*) を実行しようとしていますが、どこから始めればよいかわかりません。

score 3 · Accepted Answer

ジョン、これがこれを行うための最良の方法かどうかはわかりませんが、それは間違いなく目的を果たします.

を完了するとすぐに、ターゲットディレクトリ内のinsertionようなファイルが取得されます。000000_0有線であることは知っていますが、ファイル名は 000000_0 です。クエリに複数のレデューサーがある場合、000000_0、000001_0、000002_0 などの複数のファイルが取得されます。

1つの reducer を持つ次のクエリを発行したと仮定します。

hive> INSERT OVERWRITE DIRECTORY '/Jon/folder_name' SELECT * FROM table_name;

その場所としてexternal tableusingを作成し、選択を行います。/Jon/folder_name/000000_0このような：

hive> CREATE EXTERNAL TABLE table_name2(id INT, name STRING) LOCATION '/Jon/folder_name/000000_0';

その後、

hive> select count(*) from table_name2;

HTH

hadoop - INSERT OVERWRITE DIRECTORY を使用しました。どうすればそのファイルにアクセスできますか?

1 に答える 1

Related

Reference