問題タブ [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ローカル実行用に PIG を微調整する
ログ処理に PIG latin を使用しているのは、Hadoop クラスター全体のセットアップを心配するほどデータが大きくないという問題での表現力が高いためです。ローカル モードで PIG を実行していますが、使用可能なすべてのコア (現時点では 16) を使用していないと思います。CPU を監視すると、最大で 200% の CPU 使用率が示されます。
ローカル実行用に PIG を微調整するためのチュートリアルまたは推奨事項はありますか? すべてのマッパーが、利用可能なすべてのコアを簡単な微調整で使用できると確信しています。(私のスクリプトでは、default_parallel パラメーターを既に 20 に設定しています)
よろしくお願いします。
amazon-web-services - HadoopでPIGを使用して、テキストの一部を不明な数のグループと正規表現で照合するにはどうすればよいですか?
私はAmazonのエラスティックマップリデュースを使用しています。
このようなログファイルがあります
'foo'式のすべての数値を選択するためにpig式を作成するにはどうすればよいですか?
私は次のようなタプルを好みます:
私は次のことを試しました:
ただし、これにより、各行の最初の一致のみが生成されます。
database - Pigからデータベースに結果をエクスポートする方法
Pigからmysqlなどのデータベースに結果を直接エクスポートする方法はありますか?
hadoop - Pig バージョンの不一致 (Hadoop)
誰かが以前に問題に遭遇しましたか? これはエラーログです:
プロトコル org.apache.hadoop.mapred.JobSubmissionProtocol のバージョンが一致しません。(クライアント = 20、サーバー = 21)
私は pig 0.8.0 を使用し、私の Hadoop バージョンは 0.20.10 です。
誰かが私を助けてくれれば幸いです。
hadoop - ピッグラテンを使用して列を「更新」する方法
次の表を利用できると想像してください。
ここで、これをwhereにz
設定されるように変換し、結果のデータセットをとして保存します。NULL
x > y
B
これはメンテナンスの悪夢になるので、他のすべての列について明示的に言及することなく、それを実行したいと思います。
簡単な解決策はありますか?
apache-pig - Apache Pig Latin でコマンドを複数の行に分割できますか?
Apache Pig (Latin) 式として非常に長い行がいくつかあります。これらを複数の行に分割する方法はありますか?
enter(不完全な)コマンドが実行されるとすぐに、末尾のバックスラッシュを無駄にしようとしました...
apache-pig - Pig Latin でネストされた FOREACH ステートメントを使用して、ネストされたバッグを生成できますか?
レストランのレビューのデータ セットがあるとします。
そして、平均的なレビューのユーザー別と都市別のリストを作成したいと思います。すなわち出力:
Pig スクリプトは次のように記述できます。
ただし、最初に上位レベルのグループ (ユーザー) をグループ化し、後で次のレベル (都市) をサブグループ化できるかどうかに興味があります。
私は得る:
これを試して成功した人はいますか?FOREACH内でグループ化することは単に不可能ですか?
私の目標は、次のようなことをすることです:
apache-pig - PIGスクリプト内でデータバッグからデータを読み取る方法
次の形式のデータバッグを持っています
{([ChannelName#{ (bigXML,[])} ])}
- DataBagは、タプルである1つのアイテムのみで構成されます。
- タプルは、マップであるアイテムのみで構成されます。
- マップは、チャネル名と値の間のマップであるタイプです。
- これは、1つのタプルのみで構成されるDataBagタイプの値です。
- タプルは2つのアイテムで構成され、1つはcharrarray(非常に大きな文字列)で、もう1つはマップです。
上記のバッグを放出するUDFがあります。
次に、マップの特定のチャネルに対してDataBag内の唯一のタプルを渡すことにより、別のUDFを呼び出す必要があります。
データバッグとタプルがなかったとすると
、バッグ内のタプルを使用してNowを
([ChannelName#{ (bigXML,[])} ])
使用してデータにアクセスできます。
そうすると (Prepend $ 0)、次のエラーが発生します。
$0.$0#'StdOutChannel'
{([ChannelName#{ (bigXML,[])} ])}
$0.$0.$0#'StdOutChannel'
ERROR 1052: Cannot cast bag with schema bag({bytearray}) to map
データバッグ内のデータにアクセスするにはどうすればよいですか?
java - ファイルへのパスを必要とするコンストラクターがある場合、それが jar にパッケージ化されている場合、どのように「偽装」できますか?
この質問の文脈は、私が書いた豚のスクリプトでmaxmind Java APIを使用しようとしているということです...ただし、質問に答えるためにどちらかについて知る必要はないと思います。
maxmind API には、GeoIP.dat というファイルへのパスを必要とするコンストラクターがあります。このファイルは、必要な情報を含むコンマ区切りのファイルです。
API を含む jar ファイルと、クラスをインスタンス化して使用するラッピング クラスがあります。私の考えは、GeoIP.dat ファイルを jar にパッケージ化してから、jar ファイル内のリソースとしてアクセスすることです。問題は、コンストラクターが使用できるパスを構築する方法がわからないことです。
API を見ると、次のようにファイルが読み込まれます。
必要に応じてAPI自体を編集してこの機能を実現することを嫌うわけではないので、それを貼り付けるだけですが、機能自体をどのように複製できるかわかりません。理想的には、ファイル形式で取得したいと思いますが、そうしないと、API を編集するのが非常に面倒になります。
これは可能ですか?
apache-pig - Apache PigでPigStorageを使用してgzip圧縮されたファイルを保存するにはどうすればよいですか?
Apache Pig v0.7は、私の側で余分な労力をかけることなくgzip圧縮されたファイルを読み取ることができます。例:
そのデータを処理してディスクに出力できます。
ただし、出力ファイルは圧縮されていません。
STORE
コンテンツをgzip形式で出力するようにコマンドに指示する方法はありますか?理想的には、Amazon Elastic MapReduceを使用したいので、Pig0.6に適用できる回答が欲しいことに注意してください。しかし、Pigのいずれかのバージョンの解決策がある場合は、それを聞きたいと思います。