“apache-pig”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

87 参照

apache-pig - 豚でオーダーバイを使用するために独自のコンパレータクラスを定義することは可能ですか?

独自のコンパレータクラスを使用してタプルを並べ替えたいと考えています。「 B = ORDER A by $0,$1 」のようなクエリを実行すると、コンパレータに基づいて順序付けを行う必要があります。返信してください...ありがとう

apache-pig

2011-06-07T11:47:40.860

0 投票する

2 に答える

1225 参照

user-defined-functions - apache.org チュートリアル以外に、Pig UDF に関する有用なチュートリアルはありますか?

順応するのに数時間費やしましたが、他の練習方法を見つけたいと思っています。

user-defined-functions apache-pig

2011-06-07T21:31:38.947

0 投票する

1 に答える

4317 参照

apache-pig - Pig Script でカウントを分割する

2 つのカウントを計算する上記の pig スクリプトコードがあります。ここで、ch_count を ca_count で割り、ファイルに保存します。それ、どうやったら出来るの？

apache-pig

2011-06-24T07:52:28.930

0 投票する

3 に答える

1055 参照

hadoop - POST Hadoop PigはJSONデータとしてURLに出力しますか？

ログファイルを分析し、サマリー出力をS3に書き込むPigジョブがあります。出力をS3に書き込む代わりに、JSONペイロードに変換してURLにPOSTしたいと思います。

いくつかのメモ：

このジョブはAmazonElasticMapReduceで実行されています。
STREAMを使用して、外部コマンドを介してデータをパイプし、そこからロードすることができます。ただし、Pigが外部コマンドにEOFを送信することはないため、これは、各行が到着したときにPOSTする必要があり、それらをバッチ処理できないことを意味します。明らかに、これはパフォーマンスを低下させます。

この問題に対処するための最良の方法は何ですか？PiggyBankまたは他のライブラリに使用できるものはありますか？または、新しいストレージアダプタを作成する必要がありますか？アドバイスありがとうございます！

hadoop apache-pig elastic-map-reduce

2011-06-28T11:50:44.547

0 投票する

1 に答える

636 参照

function - Pig スクリプト関数の質問

次の Pig コードでわかるように、Attr1 と Attr2 の一連のステートメントを繰り返しています。関数で抽出する方法はありますか？コードサンプルは本当に役に立ちます。

function apache-pig

2011-06-29T06:44:57.573

0 投票する

2 に答える

625 参照

memory - Apache PIG に関する質問

pig スクリプト/ map-reduce ジョブの実行についていくつか質問があります。

pig は実際に map/reduce ジョブの実行を開始する前に、論理計画、物理計画、実行計画を作成することを知っています。コマンドExplain <alias_name>を使用して、論理/物理計画を確認できます。しかし、実行計画を表示するにはどうすればよいでしょうか (計画されているさまざまな map/reduce タスクをリストしていると思います)。Pig の実行過程で、多くのジョブ (map/reduce ペア) が作成されていることがわかります。これらの各ジョブが何を解決するかを理解したい。
スパットとは何かを理解するのが難しいため、作成された計画を理解するために使用できる決定的なガイドはありますか?
入力ファイルブロックの数を変更することで、マップジョブの数を変更できます。リデュースジョブの数も制御できますか? レデューサーの数を設定するにはどうすればよいですか?
マッパー/リデューサーノードのデフォルトのヒープメモリサイズは? これらを反映するジョブパラメータはどれですか? -Xmx 1024mオプションでヒープメモリを変更できますか? この方法でヒープメモリを設定すると、ジョブが失敗することがありました - 提供できる値に制限があるのでしょうか?

どうもありがとう！

memory mapreduce apache-pig

2011-07-04T02:57:43.690

0 投票する

1 に答える

95 参照

hadoop - hadoop で pig を実行しても結果が見つかりませんでした

Hadoop クラスタで pig スクリプトを実行しました。正常に実行されましたが、結果ファイルが見つかりません。次のように書かれています。

ocean-01 にログインすると、/user/root などのフォルダーが見つかります。どこに隠れているのでしょうか?

hadoop apache-pig

2011-07-08T04:57:50.917

0 投票する

3 に答える

6853 参照

この質問の表現が不十分である場合はお詫びします。私は大規模な機械学習プロジェクトに着手しており、Java でのプログラミングは好きではありません。Python でプログラムを書くのが大好きです。ピグについて良いことを聞いたことがあります。Pig を Python と組み合わせて、数学的に関連する作業にどのように使用できるかを誰かが説明してくれるかどうか疑問に思っていました。また、「ストリーミング python コード」を書く場合、Jython は関係しますか? 絵に入った方が効率的ですか？

ありがとう

PS: 私はいくつかの理由から、Mahout のコードをそのまま使用することを好みません。私はそれらのデータ構造のいくつかを使用したいと思うかもしれません: それが可能かどうかを知ることは役に立ちます.

jython apache-pig

2011-07-08T09:21:10.787

0 投票する

3 に答える

4913 参照

hadoop - ハイブでビッグデータを効率的に並べ替える（並べ替える）方法は？

大きなデータセットを効率的に並べ替えたいのですが（つまり、ここで説明するように、カスタムパーティショナーを使用して：MapReduceの並べ替えアルゴリズムはどのように機能しますか？）、ハイブを使用して並べ替えます。

ただし、Hiveのマニュアルには、「orderby」は単一のレデューサーによって実行されると記載されています。pigは記事に似たものを実装しているので、これは私を驚かせます-pig impl

私は何かが足りないのですか、それともハイブがこの仕事に適したハンマーではないのですか？

hadoop mapreduce hive apache-pig

2011-07-12T11:32:27.567

0 投票する

1 に答える

499 参照

hadoop - PIG を使用した mysqldump からのロード

次の形式の mysqldump があります。

pig を使用してこのデータをロードするにはどうすればよいですか? 私が試してみました;

区切り文字として , を使用しても問題なく動作しますが、ID を int にしたいので、先頭の "INSERT INTO MY_TABLEVALUES (" と末尾の ");"を切り落とす方法がわかりません。ロードするとき。

また、クエリを実行できるように日時情報をロードするにはどうすればよいですか?

あなたが与えることができるどんな助けも素晴らしいでしょう.

hadoop apache-pig

2011-07-14T12:20:29.053

問題タブ [apache-pig]

apache-pig - 豚でオーダーバイを使用するために独自のコンパレータクラスを定義することは可能ですか?

user-defined-functions - apache.org チュートリアル以外に、Pig UDF に関する有用なチュートリアルはありますか?

apache-pig - Pig Script でカウントを分割する

hadoop - POST Hadoop PigはJSONデータとしてURLに出力しますか？

function - Pig スクリプト関数の質問

memory - Apache PIG に関する質問

hadoop - hadoop で pig を実行しても結果が見つかりませんでした

jython - Pig と Python の使用

hadoop - ハイブでビッグデータを効率的に並べ替える（並べ替える）方法は？

hadoop - PIG を使用した mysqldump からのロード

問題タブ [apache-pig]

Reference