1

AmazonElasticMapReduceでデータ分析を行おうとしています。マッパーステップは、「。/formatData」と呼ばれるコンパイル済みC++バイナリへの呼び出しを含むPythonスクリプトです。例えば:

# myMapper.py
from subprocess import *
inputData = sys.stdin.readline()
# ...
p1 = Popen('./formatData', stdin=PIPE, stdout=PIPE)
p1Output = p1.communicate(input=inputData)
result = ... # manipulate the formatted data
print "%s\t%s" % (result,1)

Amazon EMRでこのようなバイナリ実行可能ファイルを呼び出すことはできますか?もしそうなら、バイナリをどこに保存しますか(S3で?)、どのプラットフォームでコンパイルする必要があり、マッパースクリプトがバイナリにアクセスできるようにする方法(理想的には現在の作業ディレクトリにあります)。

ありがとう!

4

1 に答える 1

3

バイナリがワーカーノードに正しくコピーされていることを確認すれば、そのようにバイナリを呼び出すことができます。

見る:

https://forums.aws.amazon.com/thread.jspa?threadID=35158

分散キャッシュを使用して、ワーカー ノードでバイナリ ファイルにアクセスできるようにする方法の説明。

于 2012-02-07T01:02:30.430 に答える