22

列の 1 つの値を変更する必要がある非常に大きな寄木細工のファイルがあります。これを行う1つの方法は、ソーステキストファイルでこれらの値を更新し、寄木細工のファイルを再作成することですが、これに対するより安価で全体的に簡単な解決策があるかどうか疑問に思っています.

4

4 に答える 4

16

基本から始めましょう:

Parquet は、ファイル システムに保存する必要があるファイル形式です。

主な質問:

  1. 寄木細工はappend操作をサポートしていますか?
  2. ファイル システム (つまり、HDFS)appendはファイルを許可していますか?
  3. ジョブ フレームワーク (Spark) はappend操作を実装できますか?

答え:

  1. parquet.hadoop.ParquetFileWriterとのみをサポートCREATEOVERWRITEます。appendモードはありません。(定かではありませんが、これは他の実装では変更される可能性があります。寄木細工の設計ではサポートされていますappend)

  2. HDFSはプロパティappendを使用してファイルを許可しますdfs.support.append

  3. Spark フレームワークはappend、既存の寄木細工のファイルをサポートしておらず、計画もありません。このJIRAを見る

分散システムで既存のファイルに追加することはお勧めできません。特に、2 人のライターが同時にいる可能性がある場合はなおさらです。

詳細はこちら:

于 2017-03-25T11:27:31.657 に答える