私は伸縮性のある mapreduce を学んでおり、Amazon チュートリアル セクション (以下に示すコード) で提供されている Word Splitter の例から始めました。この例では、提供されたすべての入力ドキュメントのすべての単語の単語数を生成します。
しかし、ファイル名ごとに Word Counts の出力を取得したいと考えています。つまり、特定の 1 つのドキュメント内の単語数です。単語カウントの python コードは stdin から入力を取得するため、どの入力行がどのドキュメントからのものかをどのように判断すればよいですか?
ありがとう。
#!/usr/bin/python
import sys
import re
def main(argv):
line = sys.stdin.readline()
pattern = re.compile("[a-zA-Z][a-zA-Z0-9]*")
try:
while line:
for word in pattern.findall(line):
print "LongValueSum:" + word.lower() + "\t" + "1"
line = sys.stdin.readline()
except "end of file":
return None
if __name__ == "__main__":
main(sys.argv)