“mrjob”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

1030 参照

python - python mrjobワードカウントの例を実行中にエラーが発生しました

mrjobを使用して単語数マップ削減タスクの例を実行しようとしています。次のエラーが表示されます。

0 投票する

2 に答える

6005 参照

python - MRjobで入力ファイルの名前を取得する方法

私はmrjobを使用してマップ関数を書いています。私の入力は、HDFS上のディレクトリ内のファイルから取得されます。ファイルの名前には、ファイルには存在しない小さいが重要な部分情報が含まれています。特定のキーと値のペアが由来する入力ファイルの名前を（マップ関数内で）学習する方法はありますか？

私はこのJavaコードに相当するものを探しています：

前もって感謝します！

python hadoop hadoop-streaming mrjob

0 投票する

1 に答える

1124 参照

python - EMRのMRJobにモジュールをインポートします

簡単な質問：メインのMRJobスクリプトで必要ないくつかの変数を定義するモジュールheaders.pyがあります。私はで仕事を実行できるはずです

次に、私のMRJobスクリプト（MRMyJob）で、次のように機能するはずです。

右？mrjob --helpページから：「-file=UPLOAD_FILESファイルをこのスクリプトの作業ディレクトリにコピーします。-fileは複数回使用できます。」

インポートしようとすると、まだ「ヘッダーという名前のモジュールがありません」というメッセージが表示されます。

python hadoop emr mrjob

0 投票する

1 に答える

583 参照

python - mrjob: VPC でジョブフローを実行することは可能ですか?

mrjob を使用して EMR でいくつかの MapReduce タスクを実行していますが、VPC でジョブフローを実行したいと考えています。mrjob と boto のドキュメントを見ましたが、どれもこれをサポートしていないようです。

これが可能かどうか誰にもわかりますか？

python amazon-web-services amazon-emr amazon-vpc mrjob

0 投票する

2 に答える

363 参照

mapreduce - すべてのレデューサーがどのようにして単一の答えを思いつくのでしょうか?

mrjob python パッケージで MapReduce を学び始めています。mrjob のドキュメントには、MapReduce スクリプトの例として次のスニペットがリストされています。

このアルゴリズムが一般的にどのように機能するか、コンバイナー (実行する必要はありません) が何をするか、リデューサーがマッパーとコンバイナーからのシャッフルおよびソートされた値に対してどのように実行されるかを理解しています。

ただし、レデューサーが単一の値をどのように考え出すのかわかりません。クラスターの異なるノードで実行されている異なる削減プロセスはありませんか? 特定のシャッフルされたキーと値のペアのみがパーティショナーによって特定のレデューサーに送信される場合、これらのレデュース関数はどのようにして単一の答えを導き出すのでしょうか?

さまざまなレデューサーからの出力がどのように組み合わされて単一の答えになるかについて、私は混乱していると思います。

mapreduce mrjob

0 投票する

1 に答える

4467 参照

mapreduce - reduce の値リストにインデックスを付けるにはどうすればよいですか?

Python mrjob モジュールを介して Map Reduce ジョブで結合するインマッパーを使用しています。単一のペアを発行する mapper_final 関数を作成したため、リデューサーには単一のキーと値のペアのみが発行されると確信しています。

ただし、私のreduce関数は間違っています:

エラーは読み取ります

に索引付けできないのはなぜoccurrencesですか? そのリストには 1 つのペアしかないはずですよね?

mapreduce mrjob

0 投票する

1 に答える

1462 参照

mrjob - mrjobタスクはセットを出力できますか？

mrjobのマッパーからPythonセットを出力してみました。それに応じて、コンバイナーとレデューサーの関数シグネチャを変更しました。

ただし、次のエラーが発生します。

セットをリストに変更すると、このエラーは消えます。mrjobのマッパーで出力できない特定のPythonタイプはありますか？

mrjob

0 投票する

1 に答える

746 参照

python - Python からランナーの入力ファイルを指定するにはどうすればよいですか?

ラップトップで Python mrjob モジュールを介して mapreduce ジョブを実行する外部スクリプトを作成しています (Amazon Elastic Compute Cloud や大規模なクラスターではありません)。

次のように、別の python スクリプトから mapreduce ジョブを実行するために使用する必要があるmrjob ドキュメントを読みました。MRJob.make_runner()

ただし、使用する入力ファイルを指定するにはどうすればよいですか? mapreduce スクリプトおよび map reduce を実行する他の python スクリプトと同じディレクトリにあるファイル「datalines.txt」を使用したいと考えています。さらに、出力を指定するにはどうすればよいですか?

これらのパラメーターを指定できる関数が mrjob のドキュメントに見つかりませんでした。

python mapreduce mrjob

0 投票する

2 に答える

1812 参照

python - MRJob MR は Yield ではなく Dictionary に割り当てますか?

私は MRJob と MR が初めてで、MRJob MR の従来の単語数の python の例で疑問に思っていました。

タプルを生成する代わりに辞書に格納しword, sum(occurrences)て、後でアクセスできるようにすることはできますか? これを行う構文は何ですか？ありがとう！

python dictionary mapreduce mrjob

0 投票する

1 に答える

623 参照

python - mrjob を使用した Unicode ファイル

mrjob を使用して基本的な文字カウントを実行しようとしています。このファイルは、漢字などの記号を含む Unicode UTF-8 テキストドキュメントです。文字カウントを実行すると、返される ASCII 文字セットのシンボルの数だけが取得されます。

私が理解しているように、mrjob はバイトファイルで動作するため、Unicode を処理できるはずです。これを機能させる方法はありますか？

文字数コード:

サンプルファイル:

中国語の文字カウントがどのように機能するかについてのアイデアはありますか? ありがとう！

python unicode mrjob

問題タブ [mrjob]

Reference