わかりましたので、spark を介して寄木細工のファイルにキーを書き込むことができないという例外を取得した後、API を調べたところ、これだけが見つかりました。
public class ParquetOutputFormat<T> extends FileOutputFormat<Void, T> {....
(私の仮定は間違っている可能性があります= D、どこかに別のAPIがあるかもしれません。)
わかりましたこれは、コンテナファイルから具体化されているデータを投影/制限できるため、いくつかの歪んだ意味があります。ただし、念のため。Parquet ファイルには、シーケンス ファイルの「キー」値の概念がありませんよね?
これは少し奇妙だと思います。Hadoop インフラストラクチャは、シーケンス ファイルにキーがある可能性があるという事実に基づいて構築されています。そして、このキーは、局所性のためにデータをブロックに分割するために自由に使用されると思います(HDFSレベルのcではありません)?Spark には、リダクションや結合などを行うコードと連携する API 呼び出しが多数あります。具体化されたオブジェクトの本体からキーをマップするために、追加の手順を実行する必要があります。変。
では、寄木細工の世界でキーが一流の市民ではない理由はありますか?