問題タブ [pig-udf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
414 参照

apache-pig - Pig 分散キャッシュ

getShipFilesと授業getCacheFiles中はどう違いますか?EvalFunc

このメソッドで指定された任意のファイルがexec、分散キャッシュからメソッドで利用できると仮定します

0 投票する
1 に答える
487 参照

java - Java で記述された pig UDF の入力としての複数のタプル

pig スクリプトからの出力例:

最終的には、Java UDF でヒストグラムを作成したいと考えています。これらすべてを一度に UDF に入力するにはどうすればよいですか?

0 投票する
1 に答える
479 参照

java - エラー 1066: エイリアス結果の反復子を開けません

まず第一に、私は Pig をほとんど使用したことがなく、私の組織がサポートしているため、Pig を使用しています。現在、次の方法でディレクトリからjsonファイルを読み取っています(Jacksonパーサーはこれよりも多くのことを実行できるため、制限があるため、elephntBirdを故意に使用していません)。

dump jsonと言うと、 /user/json_data ディレクトリの下にある利用可能なすべての json ファイルの内容が表示されます。現在、UDF を使用してこれらの json ファイルを解析し、データを Cassandra に挿入しています。豚の声明は次のとおりです。

しかし、結果をダンプすると、以下の例外が表示されます:

私のUDFは:

ここでいくつかの回答を見ましたが、改善は見られませんでした。間違った方法で行っている場合は、入力を提供し、代替案を提案してください。

0 投票する
1 に答える
48 参照

pig-udf - 2 番目の列を大文字に変換する UDF を作成する方法

以下の i/p ファイルの 2 列目を大文字に変換したいのですが、これは正しいコードですか? 入力ファイル - 101、ahmed 102、kranthi 103、sagar 104、mamtha

0 投票する
0 に答える
391 参照

hadoop - エラー 2078: UDF からエラーをキャッチしました

「ERROR 2078: Caught error from UDF: com.Hadoop.pig.SplitRec [Caught exception processing input row [1]]」というエラーが表示されます。入力文字列が範囲外になっていることは確かですが、どのレコード (レコード番号) が問題を引き起こしているのかわかりません。

問題の原因となっているレコードを表示するためのログを作成しようとしていますが、エラー レコードを出力/ログするためのデバッグについてはわかりません。

入力は次のようになります。

**PXW01YIN 12000099PGEN PXW01YINFFFFFFFFF PXW01YINIMFGUIPY04301Y301 JFK 00888JFK 008880001 PIMF 0000N/ACTRC5/TXN08/SCR301\/SEQ/TEX021\@

PXW01PIN 12000099PGEN PXW01PINFFFFFFFF PXW01PINIMFGUIAV04301P301 PER 03615PER 036150001 PIMF 0000N/ACTRCK/TXN08/SCR301\/SEQ/TEX021\@**

上記の行は 2 つのレコードであり、(LIMIT を使用して) テストしましたが、問題は発生していません。150kb を超える入力データがあります。

私が使用しているスクリプト:

0 投票する
1 に答える
31 参照

apache-pig - カスケードされた組み込み関数に対する Pig UDF の効率

私はPIGスクリプトを初めて使用します.Ladder If Elseを最大10の条件で実行する必要があるという要件がありました.私が持っている知識から、私たちは三項演算子しか持っていないので、三項演算子をカスケードするのではなく、UDFを書くことを考えていました.以下のように :- ( 条件 : ステートメント 1 ? ( 条件 : ステートメント 2 ? ステートメント 3 ))

データサイズは数千万行ですが、自分の要件に合わせて UDF を作成する努力を続ける必要がありますか?

結局のところ、パフォーマンスの問題が発生する場合は、努力しても意味がありません。

私が知っていることから、検討中の行ごとにUDFへの呼び出しが行われ、100万レコードの再帰呼び出しは深刻なオーバーヘッドです。

0 投票する
1 に答える
98 参照

java - PigStorage はどのように機能しますか?

私は初めてでApache Pig、データレコードを FS に保存する方法に関する処理の詳細を知りたいです。

1.それぞれTupleについて、どこでPigStorageそれらを読み取り可能にしStringますか?

2.その stringfy 関数を自分で使用するために呼び出すことはできますか?

もぅ~

0 投票する
0 に答える
90 参照

java - Apache Pig UDF が出力されない

Hadoopマルチノードクラスタで Apache Pig 0.15.0 を使用しています。Java で書かれた Pig UDF に自分の作品の一部を入れました。ただし、正常に終了したPigHadoop言った後、UDFから出力が得られませんでした。さらに、一部のコードはまったく有効になりませんでした。System.out.println()andを使用しSystem.out.flush()ていますが、それでも画面に出力がありません。その考えられる理由は何ですか?そして、この状況でどのようにデバッグするのですか?