列の 1 つの値を変更する必要がある非常に大きな寄木細工のファイルがあります。これを行う1つの方法は、ソーステキストファイルでこれらの値を更新し、寄木細工のファイルを再作成することですが、これに対するより安価で全体的に簡単な解決策があるかどうか疑問に思っています.
37221 次
4 に答える
16
基本から始めましょう:
Parquet は、ファイル システムに保存する必要があるファイル形式です。
主な質問:
- 寄木細工は
append
操作をサポートしていますか? - ファイル システム (つまり、HDFS)
append
はファイルを許可していますか? - ジョブ フレームワーク (Spark) は
append
操作を実装できますか?
答え:
parquet.hadoop.ParquetFileWriter
とのみをサポートCREATE
しOVERWRITE
ます。append
モードはありません。(定かではありませんが、これは他の実装では変更される可能性があります。寄木細工の設計ではサポートされていますappend
)HDFSはプロパティ
append
を使用してファイルを許可しますdfs.support.append
Spark フレームワークは
append
、既存の寄木細工のファイルをサポートしておらず、計画もありません。このJIRAを見る
分散システムで既存のファイルに追加することはお勧めできません。特に、2 人のライターが同時にいる可能性がある場合はなおさらです。
詳細はこちら:
于 2017-03-25T11:27:31.657 に答える