“emr”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

942 参照

hadoop - Pig on EMR: EXTRACT 関数の正規表現引数にセミコロンを含める方法

私は、必要に応じてセミコロンで区切られ、ランダムな順序で、関心のある文字列を含む Pig のいくつかのデータを使用しています。

次のコードは、テスト「キー」の文字列の値を抽出する必要があります。

ただし、コードを実行すると、次のエラーが発生します。

最初は正規表現エスケープ構文をオフにしていると思っていましたが、それは問題ではないようです。Google 検索から得られる唯一の情報は、最近修正されたように見えるバグレポートですが、それは私が実行している Amazon EMR クラスターの問題です (この分析のためにアドホックにスピンアップしました)。

バグレポートや他の場所で提案されているように、セミコロンを対応する Unicode (\u003B) に置き換えると、同じエラーが発生します。

私は気が狂っている可能性があり、これは構文の問題である可能性があるため、誰かが私を正しい方向に向けるか、これが既存の問題であることを確認できることを願っています. 後者の場合、回避策はありますか (Pig で、または必要な文字列を一致させるため)?

乾杯

2013-04-16T04:53:25.643

0 投票する

1 に答える

1321 参照

python - Map Reduce を使用したファイルの分割

EMR を使用して、テキストファイルの内容を 2 つの異なるファイルに分割したいと考えています。入力ファイル、マッパーおよびリデューサースクリプトはすべて AWS の S3 に保存されます。現在、私のマッパーは、ファイル全体の各フィールドをタブで区切ることにより、stdin の入力を再フォーマットしています。

私の減速機は魔法が起こる場所です。レデューサーで、特定のフィールドの値に基づいて、このテキストファイルを 2 つの異なるファイルに分割したいと考えています。これが私の現在の reducer.py コードです

この EMR ジョブは失敗し、次のエラーメッセージが返されます: ステップが失敗したためシャットダウンします。各行で fileReaders を使用して、これらのスクリプトの両方をローカルでテストしましたが、動作します。タスクを EMR にインポートすると問題が発生します。私の質問は次のとおりです: - EMR を使用してファイルを 2 つ以上のファイルに分割することは可能ですか? - もしそうなら、S3 が動的に新しいファイルを作成することを妨げているので、EMR ジョブは失敗していますか? - または、コードの動作が間違っていますか?

すべてのフィードバックに感謝します。

ありがとうございました。

python amazon-web-services amazon-s3 boto emr

2013-04-23T21:28:40.747

0 投票する

1 に答える

2226 参照

hadoop - S3 ファイルを連結して EMR で読み取る

連結したいログファイルを含む S3 バケットがあり、EMR ジョブへの入力として使用します。ログファイルは次のようなパスにありますbucket-name/[date]/product/out/[hour]/[minute-based-file]。すべての日付ディレクトリのすべての時間ディレクトリにあるすべての分のログを取得し、それらを 1 つのファイルに連結したいと思います。そのファイルを EMR ジョブへの入力として使用したいと考えています。元のログファイルは保存する必要があり、新しく結合されたログファイルはおそらく別の S3 バケットに書き込まれます。

hadoop fs -getmergeSSH 経由で EMR マスターノードで使用しようとしましたが、次のエラーが発生しました。

This file system object (file:///) does not support access to the request path 's3://target-bucket-name/merged.log'

ソース S3 バケットには他のファイルがいくつか含まれているため、そのすべてのファイルを含めたくありません。ワイルドカードマッチは次のようになりますs3n://bucket-name/*/product/out/*/log.*。

目的は、EMR への数万または数十万の小さな (10k-3mb) 入力ファイルの問題を回避し、代わりに、より効率的に分割できる 1 つの大きなファイルを与えることです。

hadoop amazon-web-services amazon-s3 elastic-map-reduce emr

2013-05-02T23:06:35.770

0 投票する

1 に答える

1825 参照

java - Amazon EMR: java.io.IOException: ファイルは既に存在します: s3n:///output/part-r-00002

MapReduce ジョブを実行しています。私のコードは、単純な計算を行う 1 つのクラスだけで構成されています。hadoop1.0.3 の単一ノード設定で正常に実行されます EMR で実行すると、次のエラーが表示されます

java amazon-web-services amazon-s3 emr

2013-05-04T01:49:13.997

0 投票する

2 に答える

571 参照

amazon-s3 - 日付範囲を選択するために s3distcp を使用する方法は?

名前にタイムスタンプが付いた s3 で以下のようなログがあります。ハイブを使用できるように、s3distcp を使用して EMR にデータを取得したいと考えています。

s3distcp を使用して日付範囲を選択するにはどうすればよいですか? 例: 201303031003 から 201305031003 まで? 2ヶ月の差です

amazon-s3 hive amazon-emr emr

2013-05-04T05:42:50.660

0 投票する

1 に答える

733 参照

java - hadoop/emr キーと値のペアを保存する方法

EMRで一連のMapReduceジョブを実行しています。ただし、3 番目のMapReduceジョブは 2 番目のジョブから出力されたデータを必要MapReduceとし、出力は基本的に 100 万を超えるキーと値のペアです (キーと値の両方が 1KB 未満です)。この情報を EMR と同じマシン上の分散ストアに保存して、後続のジョブが情報にアクセスできるようにする良い方法はありますか? を見ましたDistributedCacheが、ファイルを保存するためのものですか？Hadoop が 100 万個の小さなファイルを格納するために最適化されているかどうかはわかりません..

または、何らかの形で別のMapReduceジョブを使用して、すべてのキーと値のペアを 1 つの出力ファイルに結合し、そのファイル全体をDistributedCache.

お知らせ下さい。ありがとう！

java hadoop amazon-web-services distributed-caching emr

2013-05-04T22:55:32.430

問題タブ [emr]

hadoop - Pig on EMR: EXTRACT 関数の正規表現引数にセミコロンを含める方法

python - Map Reduce を使用したファイルの分割

hadoop - S3 ファイルを連結して EMR で読み取る

java - Amazon EMR: java.io.IOException: ファイルは既に存在します: s3n:///output/part-r-00002

amazon-s3 - 日付範囲を選択するために s3distcp を使用する方法は?

java - hadoop/emr キーと値のペアを保存する方法

Reference