4

HDFS に 78 GB サイズのファイルがあります

その上に Impala 外部テーブルを作成して、利用可能なデータのグループ化と集計を実行する必要があります

問題 ファイルにヘッダーが含まれています。

質問 ファイルの読み取り中にファイルからヘッダーをスキップし、残りのデータに対してクエリを実行する方法はありますか。

ファイルをローカルにコピーして問題を解決する方法はありますが、ヘッダーを削除してから、更新されたファイルを HDFS に再度コピーしますが、ファイル サイズが大きすぎるため実行できません。

どなたか心当たりのある方教えてください...

任意の提案をいただければ幸いです....

前もって感謝します

4

2 に答える 2