6

ラップトップで Python mrjob モジュールを介して mapreduce ジョブを実行する外部スクリプトを作成しています (Amazon Elastic Compute Cloud や大規模なクラスターではありません)。

次のように、別の python スクリプトから mapreduce ジョブを実行するために使用する必要があるmrjob ドキュメントを読みました。MRJob.make_runner()

mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    ...

ただし、使用する入力ファイルを指定するにはどうすればよいですか? mapreduce スクリプトおよび map reduce を実行する他の python スクリプトと同じディレクトリにあるファイル「datalines.txt」を使用したいと考えています。さらに、出力を指定するにはどうすればよいですか?

これらのパラメーターを指定できる関数が mrjob のドキュメントに見つかりませんでした。

4

1 に答える 1

5

入門ガイドでは、入力が標準入力またはコマンドラインで提供されるファイルから読み取られることを示唆しています。

mr_job = MRYourJob(args=["datalines.txt"])
于 2012-09-24T16:52:42.133 に答える