問題タブ [hcatalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
161 参照

hadoop - HCatalog 用に HP Vertica を構成するときに hcatUtil が見つからない

HP Vertica を HCatalog 用に構成しようとしています: HCatalog 用の HP Vertica の構成

しかし、Vertica クラスターで hcatUtil が見つかりません。このユーティリティはどこで入手できますか?

0 投票する
1 に答える
5855 参照

json - HCatalog JSON SerDe の使用時に「空の文字列からパスを作成できません」というエラーが発生する

HCatalog JSON Serde (hcatalog-core-0.5.0-cdh4.7.0.jar から) を使用してハイブ テーブルを使用しようとしています。CDH4 (Hadoop 2.0.0-cdh4.7.0 および Hive 0.10.0-cdh4.7.0) で実行しています。

テーブル定義:

そのように作成されたパーティションで:

最初のパスはうまくいきました。すべての列を選択すると、データを読み取ることができます。

ただし、クエリのどこかで特定のフィールドを読み取ったり参照したりしようとすると、失敗します。

where 条件でフィールドを使用すると、同じことが起こります。

ただし、where句でパーティションフィールドを使用できるため、select * from some_table where year=2015正常に動作しselect year from some_table limit 10ますが、上記のエラーで失敗します。

HDFS のファイルは次のようになります。

それが私のテーブル定義の問題であることを願っています。どんな助けでも大歓迎です。

0 投票する
1 に答える
89 参照

hive - Microsoft.Hadoop.WebHCat.Protocol.WebHCatHttpClient.CreateHiveJob の "defines" パラメーターを使用するには?

パラメータを Hive クエリに渡すことができると思いdefinesますが、ドキュメントや使用例は見つかりませんでした。これらのパラメーターをクエリで使用するにはどうすればよいですか?

0 投票する
1 に答える
174 参照

hadoop - HCatalog: スレッド「メイン」での例外 java.lang.IncompatibleClassChangeError

HCatalog を使用してデータを読み書きしようとしていますが、次のエラーはバージョンの不一致が原因であると読み、Hive と Hadoop のバージョンを変更しようとしましたが、まだ運がありません。どんな助けでも大歓迎です。

情報:

クラスパス変数は次のとおりです。 HADOOP_HOME =
/usr/local/Cellar/hadoop-2.6.0
HIVE_HOME = /usr/local/Cellar/apache-hive-1.1.0

そしてPOMでは、これらは依存関係です:

0 投票する
0 に答える
585 参照

hive - エラー 2998: 未処理の内部エラー。インターフェイス org.apache.hadoop.mapreduce.JobContext が見つかりましたが、クラスが予期されていました

私はhadoopが初めてです。Hcatalog を使用して PIG をハイブと統合しようとしましたが、ダンプ中に以下のエラーが発生しました。あなたの誰かが私を助けることができるかどうか私に知らせてください:

エラー org.apache.pig.tools.grunt.Grunt - エラー 2998: 未処理の内部エラー。

インターフェイス org.apache.hadoop.mapreduce.JobContext が見つかりましたが、クラスが予期されていました

作業の罰金をロードして記述しますが、ダンプすると上記のエラーが発生します

詳細: hadoop-2.6.0 pig-0.14.0 hive-0.12.0

を使用してコンパイルされた piggybank

を使用してハイブサーバーを実行しました"hive --service hiveserver"

他に何か設定が必要な場合はお知らせください

0 投票する
1 に答える
559 参照

json - どの形式で、データなどの JSON 行を Hadoop にどのようにインポートすればよいですか?

私は Hadoop のデータ形式について多くのことを読み、現在、使用しているパッケージに応じて、最も高度な形式は ORC (Hortonworks で十分にサポートされている) または Parquet (Cloudera で十分にサポートされている) であることを理解しているようです。

現在、初心者向けのほとんどの例/チュートリアルには、単純な csv データが含まれています。行ごとに 1 つのエントリ。多くの場合、CSV を ORC として保存せずに、SQL に似た構造 (Hive) にインポートします。

JSON も Hadoop でサポートされているようですが、あまり統合されていません。また、概要記事によると、 JSON は行単位でチャンクに分割できないため、不適切な形式です。JSON 行はネイティブにサポートされていないようです

私のデータは、次のような映画のメタデータです。

JSON 行構造の場合、どのようにデータをインポートすればよいですか? これは、使用するクエリ エンジンに大きく依存しますか? 今まで、Hive と Pig についてしか知りませんでした。HCatalog スキーマの有無にかかわらず、両方を使用できるようです。しかし、リストのない単純な列データに対してのみ両方を使用しました (SQL では、いくつかの外部キー テーブルが必要になります)。

インポートする前にデータを複数の異なるファイルに分割することも可能です - SQL のように外部キー関係をエミュレートします。それとも、可能であれば、密結合されたデータを常に 1 つのファイルに保持しますか?

私の精神的な問題は、途中で変換全体を理解していないことです。データをファイルに保存する必要がある形式であり、表形式の抽象化を使用してインポートでき、別のファイル (OCR) として保存されます。次に、別のドメイン (Hive や Pig などの SQL) の言語でクエリを実行すると、MapReduce またはその他の中間レイヤー (Spark) に変換される可能性があります。

免責事項: ファイル配布システムだけでなく、Hive や Pig などのすべてのクエリ API を含むデータ マイニング環境全体の名前として Hadoop を使用しました。

0 投票する
1 に答える
197 参照

hadoop - hcatalog 正規表現または serde でのログ ファイルの解析

私はHadoopにかなり慣れていません。

ログ ファイルを HCatalog にロードしようとしています。以下は私のログファイルのフォーマットです。

これを解析するにはSerDeを書く必要がありますか、それとも正規表現で実現できますか?

0 投票する
0 に答える
434 参照

hadoop - Hive HCatalog - テーブル メタデータの取得

テーブル/列のメタデータを取得するために Hive Hcatalog API を使用しています。

コードサンプル:

インスタンスを使用すると、列、パーティション列などhCatTableを取得できます。これにより、のリストが返されますhCatTable.getCols()hCatTable.getPartCols()HCatFieldSchema

HCatFieldSchema問題は、インスタンスから列の長さ、スケール、精度を取得できないことです 。

Hive Hcatalog API を使用して上記の列メタデータを取得する方法はありますか?

使用されるハイブのバージョン: 1.1.0

前もって感謝します

0 投票する
1 に答える
400 参照

hadoop - PIG UDF 内のテーブル スキーマ

Hive テーブルにロードする前に、フラット ファイルのデータをフォーマットする必要があります。

ファイルはパイプで区切られており、フラット ファイルのさまざまな列にさまざまなクリーニングおよび書式設定関数を適用する必要があります。Clean_Text、Format_Date、Format_TimeStamp、Format_Integer などの関数が複数あります。

私の考えは、スキーマをコンストラクターとして UDF に渡し、豚のフラット ファイルでさまざまな関数を呼び出すことです。

しかし、どうすればスキーマを渡すことができますか? DUMP A は実際にはテーブル全体をダンプしますが、メタデータのみが必要です。私の現在のUDF疑似コードは次のようになります

public class DataColumnFormatter extends EvalFunc {

}

PIG UDF でスキーマを取得するにはどうすればよいですか、またはこれを実現する別の方法はありますか。

前もって感謝します。