HDFS に 78 GB サイズのファイルがあります
その上に Impala 外部テーブルを作成して、利用可能なデータのグループ化と集計を実行する必要があります
問題 ファイルにヘッダーが含まれています。
質問 ファイルの読み取り中にファイルからヘッダーをスキップし、残りのデータに対してクエリを実行する方法はありますか。
ファイルをローカルにコピーして問題を解決する方法はありますが、ヘッダーを削除してから、更新されたファイルを HDFS に再度コピーしますが、ファイル サイズが大きすぎるため実行できません。
どなたか心当たりのある方教えてください...
任意の提案をいただければ幸いです....
前もって感謝します