データを複数の出力ファイルに分割するように Hive に指示する方法はありますか? または、出力ファイルのサイズを制限することもできます。
Redshift を使用する予定です。これは、データを複数のファイルに分割して並列読み込みを可能にすることを推奨していますhttp://docs.aws.amazon.com/redshift/latest/dg/t_splitting-data-files.html
ハイブですべてのデータを前処理しますが、redshift へのコピーを高速化する 10 個の 1GB ファイルなどを作成する方法があるかどうか疑問に思っています。
https://cwiki.apache.org/Hive/adminmanual-configuration.htmlとhttps://cwiki.apache.org/confluence/display/Hive/Configuration+Propertiesを見ていましたが、何も見つかりません