問題タブ [mrjob]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python mrjobワードカウントの例を実行中にエラーが発生しました
mrjobを使用して単語数マップ削減タスクの例を実行しようとしています。次のエラーが表示されます。
python - MRjobで入力ファイルの名前を取得する方法
私はmrjobを使用してマップ関数を書いています。私の入力は、HDFS上のディレクトリ内のファイルから取得されます。ファイルの名前には、ファイルには存在しない小さいが重要な部分情報が含まれています。特定のキーと値のペアが由来する入力ファイルの名前を(マップ関数内で)学習する方法はありますか?
私はこのJavaコードに相当するものを探しています:
前もって感謝します!
python - EMRのMRJobにモジュールをインポートします
簡単な質問:メインのMRJobスクリプトで必要ないくつかの変数を定義するモジュールheaders.pyがあります。私はで仕事を実行できるはずです
次に、私のMRJobスクリプト(MRMyJob)で、次のように機能するはずです。
右?mrjob --helpページから:「-file=UPLOAD_FILESファイルをこのスクリプトの作業ディレクトリにコピーします。-fileは複数回使用できます。」
インポートしようとすると、まだ「ヘッダーという名前のモジュールがありません」というメッセージが表示されます。
python - mrjob: VPC でジョブフローを実行することは可能ですか?
mrjob を使用して EMR でいくつかの MapReduce タスクを実行していますが、VPC でジョブ フローを実行したいと考えています。mrjob と boto のドキュメントを見ましたが、どれもこれをサポートしていないようです。
これが可能かどうか誰にもわかりますか?
mapreduce - すべてのレデューサーがどのようにして単一の答えを思いつくのでしょうか?
mrjob python パッケージで MapReduce を学び始めています。mrjob のドキュメントには、MapReduce スクリプトの例として次のスニペットがリストされています。
このアルゴリズムが一般的にどのように機能するか、コンバイナー (実行する必要はありません) が何をするか、リデューサーがマッパーとコンバイナーからのシャッフルおよびソートされた値に対してどのように実行されるかを理解しています。
ただし、レデューサーが単一の値をどのように考え出すのかわかりません。クラスターの異なるノードで実行されている異なる削減プロセスはありませんか? 特定のシャッフルされたキーと値のペアのみがパーティショナーによって特定のレデューサーに送信される場合、これらのレデュース関数はどのようにして単一の答えを導き出すのでしょうか?
さまざまなレデューサーからの出力がどのように組み合わされて単一の答えになるかについて、私は混乱していると思います。
mapreduce - reduce の値リストにインデックスを付けるにはどうすればよいですか?
Python mrjob モジュールを介して Map Reduce ジョブで結合するインマッパーを使用しています。単一のペアを発行する mapper_final 関数を作成したため、リデューサーには単一のキーと値のペアのみが発行されると確信しています。
ただし、私のreduce関数は間違っています:
エラーは読み取ります
に索引付けできないのはなぜoccurrences
ですか? そのリストには 1 つのペアしかないはずですよね?
mrjob - mrjobタスクはセットを出力できますか?
mrjobのマッパーからPythonセットを出力してみました。それに応じて、コンバイナーとレデューサーの関数シグネチャを変更しました。
ただし、次のエラーが発生します。
セットをリストに変更すると、このエラーは消えます。mrjobのマッパーで出力できない特定のPythonタイプはありますか?
python - Python からランナーの入力ファイルを指定するにはどうすればよいですか?
ラップトップで Python mrjob モジュールを介して mapreduce ジョブを実行する外部スクリプトを作成しています (Amazon Elastic Compute Cloud や大規模なクラスターではありません)。
次のように、別の python スクリプトから mapreduce ジョブを実行するために使用する必要があるmrjob ドキュメントを読みました。MRJob.make_runner()
ただし、使用する入力ファイルを指定するにはどうすればよいですか? mapreduce スクリプトおよび map reduce を実行する他の python スクリプトと同じディレクトリにあるファイル「datalines.txt」を使用したいと考えています。さらに、出力を指定するにはどうすればよいですか?
これらのパラメーターを指定できる関数が mrjob のドキュメントに見つかりませんでした。
python - MRJob MR は Yield ではなく Dictionary に割り当てますか?
私は MRJob と MR が初めてで、MRJob MR の従来の単語数の python の例で疑問に思っていました。
タプルを生成する代わりに辞書に格納しword, sum(occurrences)
て、後でアクセスできるようにすることはできますか? これを行う構文は何ですか?ありがとう!
python - mrjob を使用した Unicode ファイル
mrjob を使用して基本的な文字カウントを実行しようとしています。このファイルは、漢字などの記号を含む Unicode UTF-8 テキスト ドキュメントです。文字カウントを実行すると、返される ASCII 文字セットのシンボルの数だけが取得されます。
私が理解しているように、mrjob はバイト ファイルで動作するため、Unicode を処理できるはずです。これを機能させる方法はありますか?
文字数コード:
サンプルファイル:
中国語の文字カウントがどのように機能するかについてのアイデアはありますか? ありがとう!