“apache-pig”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1334 参照

apache-pig - PIG を使用して値を追加する

男性と女性の名前と数のリストがあります。こんな感じ

アベル 32898 82

カラン 1087 868

Pig でオスの総数とメスの総数を数える最良の方法は何ですか?

apache-pig

2011-07-14T16:32:02.067

0 投票する

2 に答える

2165 参照

apache-pig - Pig: 出力ファイル NAME の形式を変更する

複数の pig スクリプトからの出力を使用するエラスティック mapreduce パイプラインを実行しています。基本的に pig スクリプトの出力は S3 の特定の場所に保存され、データのサイズが巨大であるため、作成される出力ファイルは part-xxxxx という名前になります。

ここでの問題は、パイプラインのステップの 1 つで、2 つの異なる場所からコンテンツをコピーしてそれらをまとめ、このコレクション全体を処理することです。両方の場所にあるファイルの名前が似ているため (part-00000 から part-00342)、コピープロセス中にファイルが上書きされます。

デフォルトで、pig は出力ファイルを特定の場所にそのようなファイル名の形式で生成します。最初は、豚の出力ファイルをディスクにダウンロードし、Python プログラムを作成して名前を変更し、S3 にアップロードし直していました。膨大な量のデータのため、今はそれを行うことができません。

私は実際にこのコピーを行うパイプラインステップを所有していません。私が制御できるのは (おそらく) コピーされるファイルの名前だけです)。そのため、pig によって作成されたパーツファイルの名前にプレフィックスを付ける方法があるかどうかを知る必要があります。

ありがとう

apache-pig amazon-emr

2011-07-16T18:20:24.320

0 投票する

1 に答える

1485 参照

hadoop - Hadoop Pig を使用して、各レコードが複数行のテキストファイルからデータをロードしますか?

次の形式のデータファイルがあります。

分析のためにHadoop/pig/whateverを使用してこのファイルを読み取る最良の方法は何ですか?

hadoop apache-pig

2011-07-17T19:59:38.060

0 投票する

2 に答える

461 参照

mapreduce - Apache Pig コマンド

次のコマンドが何を意味するのか疑問に思っていますか？豚に関連するトピックをグーグルするのはとても難しい：

ブタのスクリプトを map/reduce モードで実行しましたが、フラグ (-D) を追加することで失敗しました。動作しましたが、まだ問題があります。とにかくそれはどういう意味ですか？ありがとう。

mapreduce apache-pig

2011-07-18T16:24:09.767

0 投票する

1 に答える

2055 参照

hadoop - PIG から perl スクリプトを呼び出す方法..?

豚のスクリプトから perl スクリプトを呼び出す方法は誰でも知っています。また、perl から豚を呼び出す方法も知りたいです。

これについて私を助けてください。

ありがとう、ランジット

hadoop apache-pig

2011-07-19T11:40:42.713

0 投票する

3 に答える

2999 参照

hadoop - 単一ノードの Hadoop サーバーで pig を実行できない

ubuntuでVMをセットアップしました。Hadoop を単一ノードとして実行します。後でApache Pigをインストールしました。Apache Pig はローカルモードで問題なく動作しますが、常に prom で動作しますERROR 2999: Unexpected internal error. Failed to create DataStorage

非常に明白な何かが欠けています。誰かがこれを実行するのを手伝ってくれますか?

詳細: 1. Python で MapReduce ジョブを実行できたので、hadoop は正常に動作していると思います。2. pig -x local は期待どおりに実行されます。3.入力pigすると、次のエラーが表示されます

hadoop apache-pig

2011-07-20T18:50:14.700

0 投票する

2 に答える

1358 参照

hadoop - 複数の Pig スクリプトを順番に実行するには、どのような方法がありますか?

Hadoop でいくつかの Pig スクリプトを順次実行する必要があります。これらは個別に実行する必要があります。助言がありますか？

アップデート

1 つの Java クラスから Pig スクリプトを実行できるように取り組んでいることを簡単にお知らせします。Oozie は、コメントで言及された可能性です (ただし、私たちのニーズには重すぎます)。カスケード ( http://www.cascading.org/ )のより大きなジョブフローの一部として Pig スクリプトを編成することも可能であると聞いたので、少し調べてみました。

hadoop apache-pig

2011-07-22T11:37:51.280

0 投票する

1 に答える

3861 参照

豚のストリーミングの実行に問題があります。インタラクティブな豚のインスタンスを起動すると (参考までに、SSH/Putty を介してインタラクティブな豚の AWS EMR インスタンスのマスターノードでこれを実行しています)、1 台のマシンのみで豚のストリーミングが完全に機能します (Windows Cloudera VM イメージでも機能します)。）。ただし、複数のコンピューターを使用するように切り替えると、単に動作が停止し、さまざまなエラーが発生します。

ご了承ください：

複数のコンピューターのインスタンスで問題なくストリームコマンドを持たない Pig スクリプトを実行できます。
私のすべての豚の作業は、-x ローカルモードではなく、豚の MapReduce モードで行われています。
私のpythonスクリプト（stream1.py）はこれを一番上に持っています #!/usr/bin/env python

以下は、これまでに試したオプションの小さなサンプルです (以下のコマンドはすべて、ssh/putty 経由でアクセスしているマスター/メインノードの grunt シェルで実行されます)。

これは、Pythonファイルをマスターノードに取得して使用できるようにする方法です。

これらは私のさまざまなストリーム試行です:

python stream hadoop apache-pig

2011-07-27T23:01:39.443

0 投票する

1 に答える

3424 参照

apache-pig - 結合されたセットを反復処理した後の PIG エラー 1066。

年月キーのデータセットを使用して、月の日数を持つ 1 つのセットを結合しようとしています。に参加して、セットに対して FOREACH を実行しようとすると、エラーが発生します: 1066 ... バックエンドエラー: スカラーの出力に複数の行があります。

これは、同じ問題を持つ省略されたセットです。

次にうなり声で：

ただし、それを保存してリロードすると、「結合」スキーマが機能します。

保存して再ロードせずに、結合されたセットを反復処理 (FOREACH) する方法はありますか?

apache-pig

2011-07-29T18:15:17.333

0 投票する

1 に答える

3132 参照

hadoop - Apache Pig Latin を使用したデータの条件付き合計

Apache Pig Latin を使用してログ処理を行おうとしていますが、これを行う簡単な方法があるかどうか疑問に思っていました。

（ログが定義されています。基本的には、パイプで区切られたログファイルを読み取り、フィールドを割り当てています）

ここで私がやろうとしているのは、フィールド cacheStatus に「HIT」が含まれるインスタンスの数を計算し、OrigMB、CompressionAvg、NumLogs などの他のデータも計算することです。この現在のコードは機能しますが、パフォーマンスが非常に高いようですオーバーヘッド。Pig Latin でこれに沿って何かを行う方法はありますか (MSSQL で)?

(基本的にログを複数回処理するのではなく、一度にまとめて処理したい)

私の質問が紛らわしい言葉で表現されている場合は申し訳ありません。私はPig Latinの初心者です。

hadoop logging apache-pig

2011-08-01T21:04:48.030

問題タブ [apache-pig]

apache-pig - PIG を使用して値を追加する

apache-pig - Pig: 出力ファイル NAME の形式を変更する

hadoop - Hadoop Pig を使用して、各レコードが複数行のテキストファイルからデータをロードしますか?

mapreduce - Apache Pig コマンド

hadoop - PIG から perl スクリプトを呼び出す方法..?

hadoop - 単一ノードの Hadoop サーバーで pig を実行できない

hadoop - 複数の Pig スクリプトを順番に実行するには、どのような方法がありますか?

python - Pig Hadoop ストリームのヘルプ

apache-pig - 結合されたセットを反復処理した後の PIG エラー 1066。

hadoop - Apache Pig Latin を使用したデータの条件付き合計

問題タブ [apache-pig]

Reference