hadoop - MapReduce 入力フォーマットとしての Apache Hive の使用および/または Hive メタデータのスクレイピング

翻译自：https://stackoverflow.com/questions/5668783 2011-04-14T19:44:59.000

925 次

私たちの環境は、ハイブにデータを保存することに重きを置いています。私は現在、範囲外の何かに取り組んでいることに気づきました。mapreduce を作成しましたが、Hive から簡単にスクレイピングできる情報を得るために、多くの直接的なユーザー入力が必要です。とはいえ、ハイブに拡張テーブルデータのクエリを実行すると、すべての拡張情報がほぼ JSON の巨大なブロブとして 1 列または 2 列に出力されます。この情報を解析する便利な方法はありますか?

または、CombinedHiveInputFormat を手動で使用する方法に関するドキュメントを参照できれば、コードがさらに簡素化されます。しかし、InputFormat はカスタム構造体を使用して、Hive 内でのみ使用されているようです。

最終的に、私が知りたいのは、マッパーが作業している分割のテーブル名、列 (パーティションを除く)、およびパーティションの場所を知ることです。これを達成するためのさらに別の方法があれば、知りたいと思っています。

hadoop - MapReduce 入力フォーマットとしての Apache Hive の使用および/または Hive メタデータのスクレイピング

0 に答える 0

Related

Reference