問題タブ [hive-udf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - テーブルを参照せずに HIVE 関数をテストする方法
UDF WeekOfYear と、それが最初の週にどのように始まるかを理解したいと思いました。テーブルを人為的にヒットしてクエリを実行する必要がありました。テーブルにヒットして値を計算したくありませんでした。次に、UDF のソース コードを確認できますか?
python - UDF を使用した動的 (変化する) JSON から Hive スキーマへ
以下の構造の JSON ファイルがあります。
いくつかのポイント:
上記の構造からハイブ スキーマを作成する必要があります。
JSON 構造は動的に変更できます。JSON 構造の変更ごとに。ハイブ スキーマを再生成する必要があります。
PythonのJSONライブラリを使ってみました。しかし、あまり役に立ちません。ハイブスキーマのフィールド名として使用できるタグ名を取得できませんでした。
JSON を Hive スキーマに生成するプロセスを自動化したい。
Python JSON Encoder、Decoder クラスの探索。JSON を解析し、そこから Hive スキーマを作成するための独自のロジックを配置します。しかし、JSON Encoder、Decoder クラスを使用できる良い例はありません。
最後に、すべてを Python UDF の形式にします。私は Java UDF の代替手段にも適しています。
注: 上記の JSON は、http://jsonlint.com/を使用して構造化できます。
hadoop - Hive collect_list() が NULL 値を収集しない
sを含む列とその列のいくつかの値を収集しようとしNULL
ています...しかしcollect_list
、s を無視し、値が含まれている列NULL
のみを収集します。NULL
s を他の値と一緒に取得する方法はありますか?
実際の col3 値
結果の col3 値
[0.9, NULL, NULL, 0.7, 0.6]
collect_list を適用した後、このようなハイブ ソリューションがあることを期待していました。
hive - HIVE UDF を使用して AWS S3 ファイルの内容を読み取る方法
Amazon S3 にテキスト ファイルがあり、Hive UDF でファイルの内容を読み取りたいと考えています。
以下のコードを試してみましたが、うまくいきません。
UDF コード:
ハイブ クエリ:
何か助けはありますか?
hive - UDF 初期化メソッドでハイブ conf 変数を読み取る方法
初期化メソッドでハイブ conf 変数を読み込もうとしていますが、うまくいきません。
私のUDFクラス:
hadoop - Hive UDF グローバル変数
Hive UDF でグローバル変数を使用する方法があれば、誰か教えてもらえますか?
以下の問題の解決策を見つけようとしています。シナリオは以下のようになります.3種類のファイルがあります
- 4 列のファイル (列名が A、B、C、および D であると仮定します)
- 2 列 (B、D) のファイル
- 2 列 (B、C) のファイル
3 つのファイルすべてを標準形式 (ファイル 1 形式 - 4 列の出力) に変換します。標準形式に変換するには、ファイルの最初の行にあるヘッダー レコードを参照する必要があります。私の入力ファイルが 256MB で、複数のマッパーが呼び出された場合、各マッパーがグローバル変数 (ヘッダー情報) を参照できるようにする方法はありますか。
要するに、私の Hive UDF を呼び出すすべてのマッパーに共通の変数を持つ方法はありますか?
注: UDF は、行全体を読み取ってから次のテーブルの HDFS の場所に書き込むことにより、単一の列テーブルで実行されます。