0

mrjob は初めてで、Amazon EMR でジョブを実行するのに問題があります。順番に書いていきます。

  1. ローカル マシンで mrjob を実行できます。しかし、/home/ankit/.mrjob.conf と /etc/mrjob.conf に mrjob.conf がある場合、ローカル マシンでジョブが実行されません。これが私が得ているものです。https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
  2. ドキュメントの「MR_CONFで指定した場所」のMRJOB_CONFとは?
  3. 「base_tmp_directory」の用途は何ですか? また、ジョブを開始する前に S3 に入力データをアップロードする必要がありますか?それとも、実行を開始するときにローカル コンピューターからロードされますか?
  4. numpy、scikit などのライブラリを使用する場合、ブートストラップを行う必要がありますか? はいの場合、どのように?
  5. これは、EMR https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txtでジョブを実行するコマンドを実行したときに得られるものです。

解決策はありますか?

どうもありがとう。

4

1 に答える 1

1
  1. URL が無効です (「アクセスが拒否されました」というエラーが表示されます)。
  2. mrjob.conf設定ファイルです。いくつかの場所に配置できます。http://pythonhosted.org/mrjob/configs-conf.htmlを参照してください。
  3. コマンド ラインで入力ファイルへのパスを指定するだけで、ローカル マシンからの入力データを使用できます。MRJob がデータを S3 にアップロードします。s3://... URL を指定すると、MRJob はその S3 パスのデータを使用します。
  4. 非標準パッケージを使用するには、http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packagesを参照してください。
  5. URL が無効です (「アクセスが拒否されました」というエラーが表示されます)。
于 2013-03-21T00:31:26.653 に答える