問題タブ [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 豚でオーダーバイを使用するために独自のコンパレータクラスを定義することは可能ですか?
独自のコンパレータ クラスを使用してタプルを並べ替えたいと考えています。「 B = ORDER A by $0,$1 」のようなクエリを実行すると、コンパレータに基づいて順序付けを行う必要があります。返信してください...ありがとう
user-defined-functions - apache.org チュートリアル以外に、Pig UDF に関する有用なチュートリアルはありますか?
順応するのに数時間費やしましたが、他の練習方法を見つけたいと思っています。
apache-pig - Pig Script でカウントを分割する
2 つのカウントを計算する上記の pig スクリプト コードがあります。ここで、ch_count を ca_count で割り、ファイルに保存します。それ、どうやったら出来るの?
hadoop - POST Hadoop PigはJSONデータとしてURLに出力しますか?
ログファイルを分析し、サマリー出力をS3に書き込むPigジョブがあります。出力をS3に書き込む代わりに、JSONペイロードに変換してURLにPOSTしたいと思います。
いくつかのメモ:
- このジョブはAmazonElasticMapReduceで実行されています。
- STREAMを使用して、外部コマンドを介してデータをパイプし、そこからロードすることができます。ただし、Pigが外部コマンドにEOFを送信することはないため、これは、各行が到着したときにPOSTする必要があり、それらをバッチ処理できないことを意味します。明らかに、これはパフォーマンスを低下させます。
この問題に対処するための最良の方法は何ですか?PiggyBankまたは他のライブラリに使用できるものはありますか?または、新しいストレージアダプタを作成する必要がありますか?アドバイスありがとうございます!
function - Pig スクリプト関数の質問
次の Pig コードでわかるように、Attr1 と Attr2 の一連のステートメントを繰り返しています。関数で抽出する方法はありますか?コードサンプルは本当に役に立ちます。
memory - Apache PIG に関する質問
pig スクリプト/ map-reduce ジョブの実行についていくつか質問があります。
pig は実際に map/reduce ジョブの実行を開始する前に、論理計画、物理計画、実行計画を作成することを知っています。コマンドExplain <alias_name>を使用して、論理/物理計画を確認できます。しかし、実行計画を表示するにはどうすればよいでしょうか (計画されているさまざまな map/reduce タスクをリストしていると思います)。Pig の実行過程で、多くのジョブ (map/reduce ペア) が作成されていることがわかります。これらの各ジョブが何を解決するかを理解したい。
スパットとは何かを理解するのが難しいため、作成された計画を理解するために使用できる決定的なガイドはありますか?
入力ファイル ブロックの数を変更することで、マップ ジョブの数を変更できます。リデュース ジョブの数も制御できますか? レデューサーの数を設定するにはどうすればよいですか?
マッパー/リデューサーノードのデフォルトのヒープメモリサイズは? これらを反映するジョブ パラメータはどれですか? -Xmx 1024mオプションでヒープメモリを変更できますか? この方法でヒープ メモリを設定すると、ジョブが失敗することがありました - 提供できる値に制限があるのでしょうか?
どうもありがとう!
hadoop - hadoop で pig を実行しても結果が見つかりませんでした
Hadoop クラスタで pig スクリプトを実行しました。正常に実行されましたが、結果ファイルが見つかりません。次のように書かれています。
ocean-01 にログインすると、/user/root などのフォルダーが見つかります。どこに隠れているのでしょうか?
jython - Pig と Python の使用
この質問の表現が不十分である場合はお詫びします。私は大規模な機械学習プロジェクトに着手しており、Java でのプログラミングは好きではありません。Python でプログラムを書くのが大好きです。ピグについて良いことを聞いたことがあります。Pig を Python と組み合わせて、数学的に関連する作業にどのように使用できるかを誰かが説明してくれるかどうか疑問に思っていました。また、「ストリーミング python コード」を書く場合、Jython は関係しますか? 絵に入った方が効率的ですか?
ありがとう
PS: 私はいくつかの理由から、Mahout のコードをそのまま使用することを好みません。私はそれらのデータ構造のいくつかを使用したいと思うかもしれません: それが可能かどうかを知ることは役に立ちます.
hadoop - ハイブでビッグデータを効率的に並べ替える(並べ替える)方法は?
大きなデータセットを効率的に並べ替えたいのですが(つまり、ここで説明するように、カスタムパーティショナーを使用して:MapReduceの並べ替えアルゴリズムはどのように機能しますか?)、ハイブを使用して並べ替えます。
ただし、Hiveのマニュアルには、「orderby」は単一のレデューサーによって実行されると記載されています。pigは記事に似たものを実装しているので、これは私を驚かせます-pig impl
私は何かが足りないのですか、それともハイブがこの仕事に適したハンマーではないのですか?
hadoop - PIG を使用した mysqldump からのロード
次の形式の mysqldump があります。
pig を使用してこのデータをロードするにはどうすればよいですか? 私が試してみました;
区切り文字として , を使用しても問題なく動作しますが、ID を int にしたいので、先頭の "INSERT INTO MY_TABLE
VALUES (" と末尾の ");"を切り落とす方法がわかりません。ロードするとき。
また、クエリを実行できるように日時情報をロードするにはどうすればよいですか?
あなたが与えることができるどんな助けも素晴らしいでしょう.