問題タブ [apache-pig]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1346 参照

hadoop - ローカル実行用に PIG を微調整する

ログ処理に PIG latin を使用しているのは、Hadoop クラスター全体のセットアップを心配するほどデータが大きくないという問題での表現力が高いためです。ローカル モードで PIG を実行していますが、使用可能なすべてのコア (現時点では 16) を使用していないと思います。CPU を監視すると、最大で 200% の CPU 使用率が示されます。

ローカル実行用に PIG を微調整するためのチュートリアルまたは推奨事項はありますか? すべてのマッパーが、利用可能なすべてのコアを簡単な微調整で使用できると確信しています。(私のスクリプトでは、default_parallel パラメーターを既に 20 に設定しています)

よろしくお願いします。

0 投票する
2 に答える
1230 参照

amazon-web-services - HadoopでPIGを使用して、テキストの一部を不明な数のグループと正規表現で照合するにはどうすればよいですか?

私はAmazonのエラスティックマップリデュースを使用しています。

このようなログファイルがあります

'foo'式のすべての数値を選択するためにpig式を作成するにはどうすればよいですか?

私は次のようなタプルを好みます:

私は次のことを試しました:

ただし、これにより、各行の最初の一致のみが生成されます。

0 投票する
5 に答える
6791 参照

database - Pigからデータベースに結果をエクスポートする方法

Pigからmysqlなどのデータベースに結果を直接エクスポートする方法はありますか?

0 投票する
2 に答える
1441 参照

hadoop - Pig バージョンの不一致 (Hadoop)

誰かが以前に問題に遭遇しましたか? これはエラーログです:

プロトコル org.apache.hadoop.mapred.JobSubmissionProtocol のバージョンが一致しません。(クライアント = 20、サーバー = 21)

私は pig 0.8.0 を使用し、私の Hadoop バージョンは 0.20.10 です。

誰かが私を助けてくれれば幸いです。

0 投票する
4 に答える
3800 参照

hadoop - ピッグラテンを使用して列を「更新」する方法

次の表を利用できると想像してください。

ここで、これをwhereにz設定されるように変換し、結果のデータセットをとして保存します。NULLx > yB

これはメンテナンスの悪夢になるので、他のすべての列について明示的に言及することなく、それを実行したいと思います。

簡単な解決策はありますか?

0 投票する
2 に答える
2117 参照

apache-pig - Apache Pig Latin でコマンドを複数の行に分割できますか?

Apache Pig (Latin) 式として非常に長い行がいくつかあります。これらを複数の行に分割する方法はありますか?

enter(不完全な)コマンドが実行されるとすぐに、末尾のバックスラッシュを無駄にしようとしました...

0 投票する
5 に答える
16547 参照

apache-pig - Pig Latin でネストされた FOREACH ステートメントを使用して、ネストされたバッグを生成できますか?

レストランのレビューのデータ セットがあるとします。

そして、平均的なレビューのユーザー別と都市別のリストを作成したいと思います。すなわち出力:

Pig スクリプトは次のように記述できます。

ただし、最初に上位レベルのグループ (ユーザー) をグループ化し、後で次のレベル (都市) をサブグループ化できるかどうかに興味があります。

私は得る:

これを試して成功した人はいますか?FOREACH内でグループ化することは単に不可能ですか?

私の目標は、次のようなことをすることです:

0 投票する
1 に答える
6082 参照

apache-pig - PIGスクリプト内でデータバッグからデータを読み取る方法

次の形式のデータバッグを持っています {([ChannelName#{ (bigXML,[])} ])}

  • DataBagは、タプルである1つのアイテムのみで構成されます。
  • タプルは、マップであるアイテムのみで構成されます。
  • マップは、チャネル名と値の間のマップであるタイプです。
  • これは、1つのタプルのみで構成されるDataBagタイプの値です。
  • タプルは2つのアイテムで構成され、1つはcharrarray(非常に大きな文字列)で、もう1つはマップです。

上記のバッグを放出するUDFがあります。

次に、マップの特定のチャネルに対してDataBag内の唯一のタプルを渡すことにより、別のUDFを呼び出す必要があります。

データバッグとタプルがなかったとすると 、バッグ内のタプルを使用してNowを ([ChannelName#{ (bigXML,[])} ]) 使用してデータにアクセスできます。 そうすると (Prepend $ 0)、次のエラーが発生します。 $0.$0#'StdOutChannel'{([ChannelName#{ (bigXML,[])} ])}$0.$0.$0#'StdOutChannel'ERROR 1052: Cannot cast bag with schema bag({bytearray}) to map

データバッグ内のデータにアクセスするにはどうすればよいですか?

0 投票する
6 に答える
5742 参照

java - ファイルへのパスを必要とするコンストラクターがある場合、それが jar にパッケージ化されている場合、どのように「偽装」できますか?

この質問の文脈は、私が書いた豚のスクリプトでmaxmind Java APIを使用しようとしているということです...ただし、質問に答えるためにどちらかについて知る必要はないと思います。

maxmind API には、GeoIP.dat というファイルへのパスを必要とするコンストラクターがあります。このファイルは、必要な情報を含むコンマ区切りのファイルです。

API を含む jar ファイルと、クラスをインスタンス化して使用するラッピング クラスがあります。私の考えは、GeoIP.dat ファイルを jar にパッケージ化してから、jar ファイル内のリソースとしてアクセスすることです。問題は、コンストラクターが使用できるパスを構築する方法がわからないことです。

API を見ると、次のようにファイルが読み込まれます。

必要に応じてAPI自体を編集してこの機能を実現することを嫌うわけではないので、それを貼り付けるだけですが、機能自体をどのように複製できるかわかりません。理想的には、ファイル形式で取得したいと思いますが、そうしないと、API を編集するのが非常に面倒になります。

これは可能ですか?

0 投票する
3 に答える
13297 参照

apache-pig - Apache PigでPigStorageを使用してgzip圧縮されたファイルを保存するにはどうすればよいですか?

Apache Pig v0.7は、私の側で余分な労力をかけることなくgzip圧縮されたファイルを読み取ることができます。例:

そのデータを処理してディスクに出力できます。

ただし、出力ファイルは圧縮されていません。

STOREコンテンツをgzip形式で出力するようにコマンドに指示する方法はありますか?理想的には、Amazon Elastic MapReduceを使用したいので、Pig0.6に適用できる回答が欲しいことに注意してください。しかし、Pigのいずれかのバージョンの解決策がある場合は、それを聞きたいと思います。