HDFS にテキストとして保存されているログ ファイルがあります。ログ ファイルを Hive テーブルにロードすると、すべてのファイルがコピーされます。
すべてのテキスト データが 2 回保存されるのを避けることはできますか?
編集:次のコマンドでロードします
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
次に、まったく同じファイルを次の場所で見つけることができます。
/user/hive/warehouse/sandbox.db/test/day=20130220
コピーしたものと判断しました。