問題タブ [pig-udf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - Pig 分散キャッシュ
getShipFiles
と授業getCacheFiles
中はどう違いますか?EvalFunc
このメソッドで指定された任意のファイルがexec
、分散キャッシュからメソッドで利用できると仮定します
java - Java で記述された pig UDF の入力としての複数のタプル
pig スクリプトからの出力例:
最終的には、Java UDF でヒストグラムを作成したいと考えています。これらすべてを一度に UDF に入力するにはどうすればよいですか?
java - エラー 1066: エイリアス結果の反復子を開けません
まず第一に、私は Pig をほとんど使用したことがなく、私の組織がサポートしているため、Pig を使用しています。現在、次の方法でディレクトリからjsonファイルを読み取っています(Jacksonパーサーはこれよりも多くのことを実行できるため、制限があるため、elephntBirdを故意に使用していません)。
dump jsonと言うと、 /user/json_data ディレクトリの下にある利用可能なすべての json ファイルの内容が表示されます。現在、UDF を使用してこれらの json ファイルを解析し、データを Cassandra に挿入しています。豚の声明は次のとおりです。
しかし、結果をダンプすると、以下の例外が表示されます:
私のUDFは:
ここでいくつかの回答を見ましたが、改善は見られませんでした。間違った方法で行っている場合は、入力を提供し、代替案を提案してください。
pig-udf - 2 番目の列を大文字に変換する UDF を作成する方法
以下の i/p ファイルの 2 列目を大文字に変換したいのですが、これは正しいコードですか? 入力ファイル - 101、ahmed 102、kranthi 103、sagar 104、mamtha
hadoop - エラー 2078: UDF からエラーをキャッチしました
「ERROR 2078: Caught error from UDF: com.Hadoop.pig.SplitRec [Caught exception processing input row [1]]」というエラーが表示されます。入力文字列が範囲外になっていることは確かですが、どのレコード (レコード番号) が問題を引き起こしているのかわかりません。
問題の原因となっているレコードを表示するためのログを作成しようとしていますが、エラー レコードを出力/ログするためのデバッグについてはわかりません。
入力は次のようになります。
**PXW01YIN 12000099PGEN PXW01YINFFFFFFFFF PXW01YINIMFGUIPY04301Y301 JFK 00888JFK 008880001 PIMF 0000N/ACTRC5/TXN08/SCR301\/SEQ/TEX021\@
PXW01PIN 12000099PGEN PXW01PINFFFFFFFF PXW01PINIMFGUIAV04301P301 PER 03615PER 036150001 PIMF 0000N/ACTRCK/TXN08/SCR301\/SEQ/TEX021\@**
上記の行は 2 つのレコードであり、(LIMIT を使用して) テストしましたが、問題は発生していません。150kb を超える入力データがあります。
私が使用しているスクリプト:
apache-pig - カスケードされた組み込み関数に対する Pig UDF の効率
私はPIGスクリプトを初めて使用します.Ladder If Elseを最大10の条件で実行する必要があるという要件がありました.私が持っている知識から、私たちは三項演算子しか持っていないので、三項演算子をカスケードするのではなく、UDFを書くことを考えていました.以下のように :- ( 条件 : ステートメント 1 ? ( 条件 : ステートメント 2 ? ステートメント 3 ))
データサイズは数千万行ですが、自分の要件に合わせて UDF を作成する努力を続ける必要がありますか?
結局のところ、パフォーマンスの問題が発生する場合は、努力しても意味がありません。
私が知っていることから、検討中の行ごとにUDFへの呼び出しが行われ、100万レコードの再帰呼び出しは深刻なオーバーヘッドです。
java - PigStorage はどのように機能しますか?
私は初めてでApache Pig
、データレコードを FS に保存する方法に関する処理の詳細を知りたいです。
1.それぞれTuple
について、どこでPigStorage
それらを読み取り可能にしString
ますか?
2.その stringfy 関数を自分で使用するために呼び出すことはできますか?
もぅ~
java - Apache Pig UDF が出力されない
Hadoop
マルチノードクラスタで Apache Pig 0.15.0 を使用しています。Java で書かれた Pig UDF に自分の作品の一部を入れました。ただし、正常に終了したPig
とHadoop
言った後、UDFから出力が得られませんでした。さらに、一部のコードはまったく有効になりませんでした。System.out.println()
andを使用しSystem.out.flush()
ていますが、それでも画面に出力がありません。その考えられる理由は何ですか?そして、この状況でどのようにデバッグするのですか?