1

私たちの環境は、ハイブにデータを保存することに重きを置いています。私は現在、範囲外の何かに取り組んでいることに気づきました。mapreduce を作成しましたが、Hive から簡単にスクレイピングできる情報を得るために、多くの直接的なユーザー入力が必要です。とはいえ、ハイブに拡張テーブル データのクエリを実行すると、すべての拡張情報がほぼ JSON の巨大なブロブとして 1 列または 2 列に出力されます。この情報を解析する便利な方法はありますか?

または、CombinedHiveInputFormat を手動で使用する方法に関するドキュメントを参照できれば、コードがさらに簡素化されます。しかし、InputFormat はカスタム構造体を使用して、Hive 内でのみ使用されているようです。

最終的に、私が知りたいのは、マッパーが作業している分割のテーブル名、列 (パーティションを除く)、およびパーティションの場所を知ることです。これを達成するためのさらに別の方法があれば、知りたいと思っています。

4

0 に答える 0