問題タブ [hcatalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HCatalog を使用した Hive テーブルでの MapReduce
Hive テーブル (Hadoop 2.2.0.2.0.6.0-101) のフィールド値の分布を計算する map-reduce ジョブを作成しようとしています。例えば:
入力ハイブ テーブル「ATable」:
Map-reduce ジョブは、Hive でも次の出力テーブルを生成する必要があります。
フィールド名/値を取得するには、HCatalog メタデータにアクセスする必要があるため、これらを map メソッド (org.apache.hadoop.mapreduce.Mapper) で使用できます 。 dzone.com/articles/mapreduce-hive-tables-using
この例のコードはコンパイルされますが、多くの非推奨警告が生成されます。
非推奨の警告:
非推奨ではない最新のインターフェースを使用して map-reduce で HCatalog を使用する同様の例はどこで探すべきですか?
ありがとう!
hadoop - MapReduce を使用した Hive テーブル データへのアクセス
Hadoop 2.2 の単一ノード インストールで、あるテーブルから別のテーブルにデータをコピーする Cloudera の例「MapReduce を使用したテーブル データへのアクセス」を実行しようとしています。
サンプル コードは、多数の非推奨の警告でコンパイルされます (以下を参照)。この例を Eclipse から実行する前に、Hive のデフォルト DB に入力テーブル「simple」を作成します。コマンド ラインで、入力 'simple' テーブルと出力 'simpid' テーブルを渡します。入力テーブルはデフォルト DB に既に存在しますが、このコードを実行すると例外が発生します。
質問:
1) 「テーブルが見つかりません」という例外が発生するのはなぜですか? これを解決するには?
2) この例の非推奨の HCatRecord、HCatSchema、HCatBaseInputFormat は、最新の安定した API にどのように変換されますか?
これを単一ノードの Hadoop 2.2 で実行すると、次の例外が発生します。
xml - XMLでHCatalogを使用することは可能ですか? -- Cloudera VM で ETL を実行中
私はビッグ データ クラスのプロジェクトに取り組んでおり、Cloudera Quickstart VM をローカルにインストールして、データセットでいくつかの基本的なタスクを実行し、いくつかのツールに慣れました。データセットを HDFS に移動し、データセット ファイルに基づいて HCatalog テーブルを作成し、テーブルで Hive や Pig コマンドを実行するチュートリアルに従っていました。問題は、データが大きな XML ファイルであり、HCatalog の標準の区切り文字オプションが適用されないことです。
XML を HCatalog にインポートする方法はありますか? そうでない場合、XML データセットで Hive または Pig を使用する最良の方法は何ですか?
編集: 私のファイルは公開 StackOverflow データセットからのものです。ファイルを使用していposts.xmlます。それは非常に大きく (25GB)、私のマシンで開くのに問題がありますが、Readme ファイルによると以下の構造です。
このファイルのサイズは VM で問題になりますか? 最終的には、AWS でこれらの ETL タスクのいくつかを繰り返すことになりますが、今のところ、いくつかのツールを適切に使用する方法を知らずに多額の請求を行うことを避けようとしています.
cloudera - HCatalog と Impala のイテレーション
WebHcat を使用して Impala クエリを送信する方法はありますか? 私が理解している限りでは、Impala は Hive と同じメタストアを使用し、HCatalog はこのメタストアへの統一されたアクセスを提供します。