0

私はハイブに本当に慣れていないので、質問に誤解がある場合は申し訳ありません。

Hadoop シーケンス ファイルを Hive テーブルに読み込む必要があります。シーケンス ファイルは、Hive に付属の SerDe2 を使用して逆シリアル化できるリサイクル バイナリ データです。

問題は次のとおりです。ファイル内の 1 つの列が Google protobuf でエンコードされているため、thrift SerDe がシーケンス ファイルを処理するときに、protobuf でエンコードされた列が適切に処理されません。

Hive で、thrift シーケンス ファイル内にネストされたこの種の protobuf でエンコードされた列を処理して、各列を適切に解析できるようにする方法があるのだろうか?

可能な限りの助けをありがとう!

4

1 に答える 1

0

proto buff フォーマットを逆シリアル化するには、他の serde を使用する必要があると思います。

これを参照してもいいかもしれませんが、

https://github.com/twitter/elephant-bird/wiki/How-to-use-Elephant-Bird-with-Hive

于 2016-11-07T07:51:26.143 に答える