timestamp - ハイブのタイムスタンプは寄木細工のタイムスタンプと同じですか?

Question

具体的には、論理型とタイムスタンプに関する寄木細工の仕様は、 https://github.com/Parquet/parquet-format/blob/master/LogicalTypes.md 「TIMESTAMP_MILLIS は、論理的な日付と時刻の組み合わせ型に使用されます。注釈を付ける必要があります。 Unix エポック (UTC 1970 年 1 月 1 日の 00:00:00.000) からのミリ秒数を格納する int64。

"

つまり、ここでは、型はミリ秒単位までしか正確ではなく、1970 年から始まると書かれています。

しかし、 https://github.com/apache/hive/blob/branch-0.14/ql/src/java/org/apache/hadoop/hive/ql/io/parquet/convert のhive-parquetコードを見ると /ETypeConverter.java#L142 https://github.com/apache/hive/blob/branch-0.14/ql/src/java/org/apache/hadoop/hive/ql/io/parquet/timestamp/NanoTime.java# L54 寄木細工のタイムスタンプのハイブのエンコーディングは、ナノ秒のポイントまで正確で、「Monday, January 1, 4713」(jodd.datetime.JDateTime で定義) から始まる別の仕様のようです。

Hive の parquet タイムスタンプストレージは、上記の仕様とはまったく異なりますか?

デートのサポートは？https://issues.apache.org/jira/browse/HIVE-8119 上記のドキュメントで指定されている「int32」とは異なるオンディスクバイナリエンコーディングを使用する予定ですか?

ありがとう

score 1 · Accepted Answer

ここにリンクされていたが削除された議論に基づくと、Parquet でタイムスタンプを保存するためのサポートが Hive に追加されたとき、主な目標は Impala の実装と互換性を持つことであったようですtimestamp_millis。寄木細工仕様に。

Impala のタイムスタンプ表現は、int96Parquet 型にマップされます (日付は 4 バイト、時刻は 8 バイト、詳細はこちら)。

いいえ、Hive タイムスタンプを Parquet に格納する場合、timestamp_millis型は使用されませんが、代わりに Impala のint96タイムスタンプ表現が使用されます。

timestamp - ハイブのタイムスタンプは寄木細工のタイムスタンプと同じですか?

1 に答える 1

Related

Reference