“mrjob”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

106 参照

python - EMR 長時間出力なし

MRJob ライブラリを使用して Python で記述された MapReduce ジョブがあります。このジョブは、ローカルマシンで完了するまでに約 30 分かかります。EMR で同じジョブを実行している間、出力が長時間 (~=1 時間) 表示されません。私は仕事を閉めなければなりませんでした。また、私のローカルマシンでは非常に短時間しかかからないジョブも、EMR では非常にうまく実行されます。タイムアウトを増やしてみましたが、タイムアウト後にタスクトラッカーがレデューサーを強制終了します。次のエラーメッセージが表示されます

EMR は私の仕事のために 4 つのマッパーと 1 つのレデューサーを作成します。また、私が書いたレデューサーコードでは、約 11 ～ 12 MB のデータセット全体を何度もループする必要があります。ローカルマシンとほぼ同じ時間でジョブが終了することを期待していますが、そうではありません。解決策は??`

0 投票する

0 に答える

310 参照

python - MrJob を使用した EMR でのランダムな java.io.FileNotFoundException jobcache エラー

MrJob を使用していて、ランダムにクラッシュし続ける Elastic Map Reduce で Hadoop ジョブを実行しようとしています。

データは次のようになります (タブ区切り)。

基礎となる MapReduce は非常に単純です。

実行するときは、デフォルトの mrjob.conf を使用して次のコマンドを使用します (私のキーは環境に設定されています)。

小さなデータセットで実行すると、正常に終了します。データコーパス全体 (約 10GiB 相当) で実行すると、次のようなエラーが発生します (ただし、毎回同じポイントではありません!)。

これを 2 回実行しました。最初は 45 分後に死亡し、今回は 4 時間後に死亡しました。どちらの場合も、異なるファイルで停止しています。停止した両方のファイルを確認しましたが、どちらにも問題はありません。

どういうわけか、書き込んだスピルファイルを見つけることができず、混乱しています。

編集：

ジョブを再度実行したところ、数時間後に再び停止しましたが、今回は別のエラーメッセージが表示されました。

python hadoop emr mrjob

0 投票する

1 に答える

3022 参照

python - MRJob :- map reduce で中間値を表示

Python MRJob ライブラリを使用して mapreduce プログラムを実行しているときに、端末に中間値を表示する (つまり、変数またはリストを出力する) にはどうすればよいですか?

python hadoop mapreduce mrjob

0 投票する

1 に答える

1169 参照

python - MapReduce: 結果を永続的に保存する Mrjob

3 つのステップで mapreduce ジョブを実装しようとしています。各ステップの後に、これまでのすべてのステップからのデータが必要です。マッパーまたはリデューサーの結果を mrjob でディスクに保存する方法について、例/アイデアを持っている人はいますか?

python mapreduce mrjob

0 投票する

1 に答える

471 参照

python - AWS accesskey と secretaccesskey の mrjob で環境変数を変更する方法

$AWS_ACCESS_KEY_IDmrjob のandを変更して$AWS_SECRET_ACCESS_KEY、AWS の独自の資格情報を入力するにはどうすればよいですか? Mac OS X でターミナルを使用しています。

https://github.com/Yelp/mrjob

ありがとう！

python hadoop amazon-ec2 mapreduce mrjob

0 投票する

2 に答える

980 参照

python - MapReduce を使用して Python で 2 つの変数間の相関を計算する方法

AWS で利用可能な Million Song Dataset を使用して、トラックのラウドネスと人気の相関関係を見つけようとしています。基本的なチュートリアル ( http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ ) に従って各トラックのデータを取得し、ビルドしましたMRJob と Python を使用した私のプロジェクト。マッパーとリデューサーを使用しているときに、トラック間の相関関係を見つける方法がわかりません。これまでの私のコードは次のとおりです。

このコードは、次のようになっているため、実際には機能していません。

MSD データセットの変数loudnessと変数の間の相関関係を計算するために、残りのコードを書くのに助けが必要です。hotnessありがとう！

python amazon-web-services mapreduce bigdata mrjob

0 投票する

3 に答える

3470 参照

python - MRjob: レデューサーは 2 つの操作を実行できますか?

マッパーから生成された各キーと値のペアの確率を計算しようとしています。

したがって、マッパーが生成するとしましょう:

5+6+7 = 18 を加算してから、確率 5/18、6/18、7/18 を見つける必要があります

レデューサーからの最終的な出力は次のようになります。

これまでのところ、リデューサーに値からすべての整数を合計させることしかできません。戻って各インスタンスを合計で割るにはどうすればよいですか?

ありがとう！

python mapreduce mrjob

0 投票する

1 に答える

778 参照

python - マルチステップのmap-reduceプログラムで最後の「print」ステートメントを1回実行する方法は?

私は基本的に、Hadoop でスケールアップしてレコメンダーシステムを実装しようとしています。

最初のステップでは、入力ファイル内のアイテムのすべてのペア間の類似性を計算しようとしています。

{アイテムA、アイテムB、類似性}

出力ファイルのサイズが非常に大きくなります (60kb の入力の場合、出力ファイルのサイズは 6mb になります)。

したがって、結果を python dict に保存し、map reduce プログラム全体の終了後に dict を 1 回だけ出力する方がよいのではないかと考えました。

私のpythonコードは次のとおりです。

だから私は実行後に欲しいもの

python thisfile.py < input.csv -r hadoop > output.txt

繰り返しがなく、辞書が 1 つある比較的小さな出力ファイルです。

要するに、

現在、このプログラムは終了をn 回印刷しますが、一度だけ印刷したいのです。

これらすべてとは別に、より良い方法で Hadoop をスケールアップすることにより、協調フィルタリングを実装するより良い方法があります。

事前に感謝します。

python hadoop mapreduce collaborative-filtering mrjob

0 投票する

2 に答える

331 参照

python - Hadoop 管理 Web インターフェイスで mrjob からジョブのタイトルを指定する方法はありますか?

複数のステップを持つジョブを含む、Python ライブラリmrjobから開始されたいくつかの異なるジョブがあります。streamjobカスタム名に置き換えるにはどうすればよいですか? たとえばwordcount_step_1、wordcount_step_2、などです。

Hadoop 管理のスクリーンショット

python mapreduce hadoop-streaming mrjob

0 投票する

2 に答える

1506 参照

python - MRJOB オープン JSON ファイル - Python

マッパー関数の一部として json ファイルを読み込もうとしていますが、ファイルは存在しますが、「ディレクトリにそのようなファイルはありません」というメッセージが返されます。

私はすでにファイルを開いて、その行を解析しています。しかし、その値の一部を 2 番目の JSON ファイルと比較したいと考えています。

python mrjob

問題タブ [mrjob]

Reference