2

EMR マップ タスクから s3 バケットに直接書き込む方法を見つけようとしています。インターネットからデータを取得してs3に保存するpythonストリーミングジョブを実行したいと思います-ジョブを減らすためにデータを戻さずに。誰でもそれで私を助けることができますか?

4

1 に答える 1

1

MR ジョブの出力を s3 ディレクトリに設定し、reducer がないことを伝えてみませんか。

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

それはあなたが望むことをするはずです。

次に、スクリプトで次のようなことができます (申し訳ありませんが、ruby):

STDIN.each do |url|
  puts extract_data(url)
end
于 2012-04-10T16:52:52.813 に答える