問題タブ [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - PIG を使用して値を追加する
男性と女性の名前と数のリストがあります。こんな感じ
アベル 32898 82
カラン 1087 868
Pig でオスの総数とメスの総数を数える最良の方法は何ですか?
apache-pig - Pig: 出力ファイル NAME の形式を変更する
複数の pig スクリプトからの出力を使用するエラスティック mapreduce パイプラインを実行しています。基本的に pig スクリプトの出力は S3 の特定の場所に保存され、データのサイズが巨大であるため、作成される出力ファイルは part-xxxxx という名前になります。
ここでの問題は、パイプラインのステップの 1 つで、2 つの異なる場所からコンテンツをコピーしてそれらをまとめ、このコレクション全体を処理することです。両方の場所にあるファイルの名前が似ているため (part-00000 から part-00342)、コピー プロセス中にファイルが上書きされます。
デフォルトで、pig は出力ファイルを特定の場所にそのようなファイル名の形式で生成します。最初は、豚の出力ファイルをディスクにダウンロードし、Python プログラムを作成して名前を変更し、S3 にアップロードし直していました。膨大な量のデータのため、今はそれを行うことができません。
私は実際にこのコピーを行うパイプライン ステップを所有していません。私が制御できるのは (おそらく) コピーされるファイルの名前だけです)。そのため、pig によって作成されたパーツ ファイルの名前にプレフィックスを付ける方法があるかどうかを知る必要があります。
ありがとう
hadoop - Hadoop Pig を使用して、各レコードが複数行のテキスト ファイルからデータをロードしますか?
次の形式のデータ ファイルがあります。
分析のためにHadoop/pig/whateverを使用してこのファイルを読み取る最良の方法は何ですか?
mapreduce - Apache Pig コマンド
次のコマンドが何を意味するのか疑問に思っていますか?豚に関連するトピックをグーグルするのはとても難しい:
ブタのスクリプトを map/reduce モードで実行しましたが、フラグ (-D) を追加することで失敗しました。動作しましたが、まだ問題があります。とにかくそれはどういう意味ですか?ありがとう。
hadoop - PIG から perl スクリプトを呼び出す方法..?
豚のスクリプトから perl スクリプトを呼び出す方法は誰でも知っています。また、perl から豚を呼び出す方法も知りたいです。
これについて私を助けてください。
ありがとう、ランジット
hadoop - 単一ノードの Hadoop サーバーで pig を実行できない
ubuntuでVMをセットアップしました。Hadoop を単一ノードとして実行します。後でApache Pigをインストールしました。Apache Pig はローカル モードで問題なく動作しますが、常に prom で動作しますERROR 2999: Unexpected internal error. Failed to create DataStorage
非常に明白な何かが欠けています。誰かがこれを実行するのを手伝ってくれますか?
詳細: 1. Python で MapReduce ジョブを実行できたので、hadoop は正常に動作していると思います。2. pig -x local は期待どおりに実行されます。3.入力pig
すると、次のエラーが表示されます
hadoop - 複数の Pig スクリプトを順番に実行するには、どのような方法がありますか?
Hadoop でいくつかの Pig スクリプトを順次実行する必要があります。これらは個別に実行する必要があります。助言がありますか?
アップデート
1 つの Java クラスから Pig スクリプトを実行できるように取り組んでいることを簡単にお知らせします。Oozie は、コメントで言及された可能性です (ただし、私たちのニーズには重すぎます)。カスケード ( http://www.cascading.org/ )のより大きなジョブ フローの一部として Pig スクリプトを編成することも可能であると聞いたので、少し調べてみました。
python - Pig Hadoop ストリームのヘルプ
豚のストリーミングの実行に問題があります。インタラクティブな豚のインスタンスを起動すると (参考までに、SSH/Putty を介してインタラクティブな豚の AWS EMR インスタンスのマスター ノードでこれを実行しています)、1 台のマシンのみで豚のストリーミングが完全に機能します (Windows Cloudera VM イメージでも機能します)。 )。ただし、複数のコンピューターを使用するように切り替えると、単に動作が停止し、さまざまなエラーが発生します。
ご了承ください:
- 複数のコンピューターのインスタンスで問題なくストリーム コマンドを持たない Pig スクリプトを実行できます。
- 私のすべての豚の作業は、-x ローカル モードではなく、豚の MapReduce モードで行われています。
- 私のpythonスクリプト(stream1.py)はこれを一番上に持っています #!/usr/bin/env python
以下は、これまでに試したオプションの小さなサンプルです (以下のコマンドはすべて、ssh/putty 経由でアクセスしているマスター/メイン ノードの grunt シェルで実行されます)。
これは、Pythonファイルをマスターノードに取得して使用できるようにする方法です。
これらは私のさまざまなストリーム試行です:
apache-pig - 結合されたセットを反復処理した後の PIG エラー 1066。
年月キーのデータセットを使用して、月の日数を持つ 1 つのセットを結合しようとしています。に参加して、セットに対して FOREACH を実行しようとすると、エラーが発生します: 1066 ... バックエンド エラー: スカラーの出力に複数の行があります。
これは、同じ問題を持つ省略されたセットです。
次にうなり声で:
ただし、それを保存してリロードすると、「結合」スキーマが機能します。
保存して再ロードせずに、結合されたセットを反復処理 (FOREACH) する方法はありますか?
hadoop - Apache Pig Latin を使用したデータの条件付き合計
Apache Pig Latin を使用してログ処理を行おうとしていますが、これを行う簡単な方法があるかどうか疑問に思っていました。
(ログが定義されています。基本的には、パイプで区切られたログファイルを読み取り、フィールドを割り当てています)
ここで私がやろうとしているのは、フィールド cacheStatus に「HIT」が含まれるインスタンスの数を計算し、OrigMB、CompressionAvg、NumLogs などの他のデータも計算することです。この現在のコードは機能しますが、パフォーマンスが非常に高いようですオーバーヘッド。Pig Latin でこれに沿って何かを行う方法はありますか (MSSQL で)?
(基本的にログを複数回処理するのではなく、一度にまとめて処理したい)
私の質問が紛らわしい言葉で表現されている場合は申し訳ありません。私はPig Latinの初心者です。