Hiveテーブルを作成したいCSVのzipファイルがたくさんあります。どうするのが一番いいのかを模索中です。
- ファイルを解凍し、HDFS にアップロードします。
- ファイルを HDFS にコピーし、解凍する方法はありますか
- または、他のより良い/推奨される方法はありますか?
CSV ファイルをタブ区切りまたは Ctrl A 、または Ctrl B 区切りに変換してから、Hadoop/Hive にアップロードするのが一般的な方法です。
HDFS にファイルをアップロードするには、次のコマンドを使用できます -
hadoop fs -put file_to_uplload hdfs_path
これを自動化したいと思います。その場合、次の手順が役に立ちます。
CSV ファイル フィールドに列をマッピングするハイブ テーブルを作成します (このステップで不要なフィールドを削除できます)。Hive create table ステートメントで区切り文字を選択します。
csv ファイルを区切り形式に変換する (Ctrl A または Ctrl B)
Python バッチ処理スクリプト/フレームワークを使用して、ステップについて自動化できます。