問題タブ [apache-pig]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
660 参照

hadoop - PIG と HIVE を別々のプログラミング モデルと呼ぶことはできますか?

この質問はイライラするように聞こえるかもしれませんが、実際のプログラミングとは何の関係もないかもしれません。これは、私が同僚と行った小さな議論のスピンオフです。彼は、HIVE と PIG を別々の「プログラミング モデル」として呼び出すことができると主張し続けました。これは、これらで MapReduce ジョブを記述する場合、特に HIVE でプログラミングしている場合は、MapReduce について考える必要がないからです。プログラマーの観点からは、MapReduce 部分は完全に抽象化されています。これは完全に SQL に似ています。

しかし、これらの言語で書かれたスクリプトは最終的に複数の mapreduce ジョブに変換されるため、私はちょっと同意しませんでした。したがって、これらは同じモデル用にプログラムするための高水準のプログラミング言語と呼ぶことができます。そして、ワードプログラミングモデルは、プログラマーではなく、クランチされるのを待っている基礎となるデータの観点から見る必要があります。

あなたの意見は何ですか?

0 投票する
7 に答える
30558 参照

json - PigでJSONを解析するにはどうすればよいですか?

s3には、b、c、iの3種類のログ行を持つgzip圧縮されたログファイルがたくさんあります。iとcは両方ともシングルレベルのjsonです:

タイプbは深くネストされたjsonです。私はこの要点に出くわし、これを機能させるためにjarをコンパイルすることについて話しました。私のJavaスキルは優れたものではないので、ここから何をすべきか本当にわかりませんでした。

タイプiとタイプcは常に同じ順序であるとは限らないため、これにより、生成正規表現ですべてを指定することが困難になります。PigでJSON(gzipファイル)を処理することは可能ですか?Amazon ElasticMapReduceインスタンスに基づいて構築されたPigのバージョンを使用しています。

これは2つの質問に要約されます:1)PigでJSONを解析できますか(もしそうなら、どのように)?2)(gzipで圧縮されたログファイルから)JSONを解析できる場合、ネストされたJSONオブジェクトを解析できますか?

0 投票する
1 に答える
4842 参照

hadoop - PIG UDF で静的ファイルを読み取る方法

私はPIGとHadoopを初めて使用します。String を操作して文字列を返す PIG UDF を作成しました。実際には、udf にビジネス ロジックを含む既存の jar のクラスを使用します。クラスコンストラクターは、入力の処理に使用される辞書を構築するために使用する入力として 2 つのファイル名を受け取ります。mapreduce モードで動作させる方法 Pig ローカル モードでファイル名を渡そうとしましたが、正常に動作しました。しかし、mapreduce モードで動作させる方法がわかりません。分散キャッシュは問題を解決できますか?

これが私のコードです

私が理解していることから、tokenParser.jar はある種の BufferedInputReader を使用している必要があります。tokenParser.jar を変更せずに動作させることは可能ですか?

0 投票する
2 に答える
737 参照

hadoop - Hadoop ハイパーキューブ

ねえ、柔軟な次元数を持つ Hadoop ベースのハイパーキューブを開始しています。これに対する既存のアプローチを知っている人はいますか?

PigOLAPSketchを見つけましたが、それを使用するコードはありません。

もう 1 つのアプローチは、 hbaseを使用する lastfm の Zohmg ですが、非常に機能していないようです。

私は豚の解決策を開始すると思います。アドバイスはありますか?

0 投票する
1 に答える
20402 参照

hadoop - PIG のレコード セット全体の最大/最小

ファイルからロードする一連のレコードがあり、最初に行う必要があるのは、列の最大値と最小値を取得することです。SQL では、次のようなサブクエリでこれを行います。

PIGでもこれを行う簡単な方法があるに違いないと思いますが、見つけるのに苦労しています。MAX と MIN の機能がありますが、次のことを試してみるとうまくいきませんでした:

これはうまくいきませんでした。各行に同じ値を持つ余分な列を追加してから、その列でそれらをグループ化したほうがうまくいきました。次に、その新しいグループの最大値を取得します。これは私が欲しいものを手に入れるための複雑な方法のように思えるので、誰かがもっと簡単な方法を知っているかどうか尋ねると思いました.

助けてくれてありがとう。

0 投票する
2 に答える
2597 参照

hadoop - HadoopPigで複数の出力を生成する

Hadoopのデータのリストを含むこのファイルがあります。ID番号などでファイルを分析する簡単なPigスクリプトを作成しました...

私が探している最後のステップはこれです:一意のID番号ごとにファイルを作成(保存)したいと思います。したがって、これはグループのステップに依存するはずです...しかし、これが可能かどうかはわかりません(カスタムストアモジュールがあるのでしょうか?)。

何か案が?

ありがとう

ダニエレ

0 投票する
3 に答える
1499 参照

hadoop - hadoop/pig でのログのマルチレベル ディレクトリのインポート

ログを S3 に保存し、(Pig) クエリの 1 つが 3 つの異なるログ タイプを取得します。各ログ タイプは、タイプ/日付に基づく一連のサブディレクトリにあります。例えば:

私のクエリは、一定時間、3 種類のログすべてをロードする必要があります。例えば:

私のクエリは、これらすべてのログに対して実行されます。

これを処理する最も効率的な方法は何ですか?

  1. bash スクリプト拡張を使用する必要がありますか? これが複数のディレクトリで機能するかどうかはわかりません。ロードするログが 10k ある場合、効率的 (または可能) であるとは思えません。
  2. すべてのログを集約して hdfs に直接プッシュするサービスを作成しますか?
  3. カスタム Java/Python インポーター?
  4. 他の考え?

必要に応じてサンプルコードも残していただけると助かります。

ありがとう

0 投票する
1 に答える
931 参照

apache-pig - Apache Pig: Web ログからの追加のクエリ パラメータ

AWS CloudFront アクセスログの分析に取り組んでいます。

ファイルの行をロードするコードがあります

今、クエリ文字列パラメータ(名前/値のペア)を解析しようとしています:

クエリ文字列の p、s および gci の値について、raw_logs2 テーブルに列を追加するにはどうすればよいですか?

0 投票する
3 に答える
3759 参照

hadoop - Hadoop の Pig で処理されたファイルからヘッダー行を削除するにはどうすればよいですか?

Pig プログラムを介して Amazon の Elastic Map Reduce を使用して、サービスによって生成されたタブ区切りのデータ ファイルを解析しようとしています。すべてのデータ ファイルに、各列の目的を定義するヘッダー行が含まれていることを除けば、うまくいっています。明らかに、(文字列) ヘッダーは数値データ値にキャストできないため、Pig から次のような警告が表示されます。

load ステートメントの後にフィルターを使用して、後でヘッダー行を操作しないようにします (ヘッダー用語をフィルター処理することにより) が、潜在的なマスキングを避けるために警告ノイズを取り除きたい問題 (適切にキャストされない実際のデータ フィールドなど)。

これは可能ですか?

0 投票する
1 に答える
1072 参照

php - PHPを使用したPigスクリプト

PHPのような他のプログラミング言語でpigスクリプトを実行することは可能ですか?