4

Hiveテーブルを作成したいCSVのzipファイルがたくさんあります。どうするのが一番いいのかを模索中です。

  • ファイルを解凍し、HDFS にアップロードします。
  • ファイルを HDFS にコピーし、解凍する方法はありますか
  • または、他のより良い/推奨される方法はありますか?
4

1 に答える 1

3

CSV ファイルをタブ区切りまたは Ctrl A 、または Ctrl B 区切りに変換してから、Hadoop/Hive にアップロードするのが一般的な方法です。

HDFS にファイルをアップロードするには、次のコマンドを使用できます -

hadoop fs -put file_to_uplload hdfs_path

これを自動化したいと思います。その場合、次の手順が役に立ちます。

  1. CSV ファイル フィールドに列をマッピングするハイブ テーブルを作成します (このステップで不要なフィールドを削除できます)。Hive create table ステートメントで区切り文字を選択します。

  2. csv ファイルを区切り形式に変換する (Ctrl A または Ctrl B)

  3. ファイルを Hive テーブルの場所にアップロードします。

Python バッチ処理スクリプト/フレームワークを使用して、ステップについて自動化できます。

さらに読むには: http://wiki.apache.org/hadoop/Hive/GettingStarted

于 2011-06-17T09:05:20.203 に答える