3

わかりましたので、spark を介して寄木細工のファイルにキーを書き込むことができないという例外を取得した後、API を調べたところ、これだけが見つかりました。

public class ParquetOutputFormat<T> extends FileOutputFormat<Void, T> {....

(私の仮定は間違っている可能性があります= D、どこかに別のAPIがあるかもしれません。)

わかりましたこれは、コンテナファイルから具体化されているデータを投影/制限できるため、いくつかの歪んだ意味があります。ただし、念のため。Parquet ファイルには、シーケンス ファイルの「キー」値の概念がありませんよね?

これは少し奇妙だと思います。Hadoop インフラストラクチャは、シーケンス ファイルにキーがある可能性があるという事実に基づいて構築されています。そして、このキーは、局所性のためにデータをブロックに分割するために自由に使用されると思います(HDFSレベルのcではありません)?Spark には、リダクションや結合などを行うコードと連携する API 呼び出しが多数あります。具体化されたオブジェクトの本体からキーをマップするために、追加の手順を実行する必要があります。変。

では、寄木細工の世界でキーが一流の市民ではない理由はありますか?

4

1 に答える 1

4

あなたは正しいです。Parquet ファイルは、キー/値のファイル形式ではありません。カラム形式です。「キー」は、テーブルの特定の列にすることができます。しかし、本当の重要な概念がある HBase とは異なります。Parquet はシーケンス ファイルではありません。

于 2014-02-18T21:33:35.660 に答える