アドホック分析のために、ログ データのコピーを S3 の Parquet に保存したいと考えています。SQLContext.parquetFile()
私は主にSparkを介してParquetを使用していますが、これは and を介してテーブル全体を読み書きする操作のみを提供しているようSQLContext.saveAsParquetFile()
です。
特に S3 に保存されている場合に、まったく新しいコピーを書き込まずに既存の Parquet テーブルにデータを追加する方法はありますか?
更新用に個別のテーブルを作成できることはわかっていますが、Spark ではクエリ時に対応する DataFrame の結合を形成できますが、そのスケーラビリティについて疑問があります。
必要に応じて、Spark 以外のものを使用できます。