大きな結果セットでいくつかの Hive クエリを実行しようとしています。私の通常のアプローチは、WebHCat API を介してジョブを送信し、結果の stdout ファイルから結果を読み取るか、コンソールでハイブを実行して stdout をファイルにパイプすることです。ただし、結果が大きい (複数のレデューサーが使用されている) 場合、stdout は空白または切り捨てられます。
私の現在の解決策は、結果から新しいテーブルを作成することですCREATE TABLE FROM SELECT
。これにより、追加の手順が導入され、結果セットを保持したくない場合は、後でテーブルを片付けます。
このような Hive クエリからすべての結果を取得するためのより良い方法はありますか?