ディレクトリの設定方法に関係していると思われるエラーが表示されます。
実行後:
hadoop-0.20.205.0/bin/hadoop jar hadoop-0.20.205.0/contrib/streaming/hadoop-streaming-*.jar -file mapper.py -mapper mapper.py -file reducer.py -reducer reducer.py -input cs4501input -出力py_wc_out
私は得る: packageJobJar: [mapper.py, reducer.py, /tmp/hadoop-ubuntu/hadoop-unjar6120166906857088018/] [] /tmp/streamjob1341652915014758694.jar tmpDir=null
12/04/08 01:34:01 INFO mapred.JobClient: ステージング領域のクリーンアップ hdfs://localhost:9000/tmp/hadoop-ubuntu/mapred/staging/ubuntu/.staging/job_201204080100_0004
12/04/08 01:34:01 エラー streaming.StreamJob: ジョブの起動エラー、出力パスが既に存在します: 出力ディレクトリ hdfs://localhost:9000/user/ubuntu/py_wc_out が既に存在します ストリーミング ジョブに失敗しました!
hdfsでcore-site.xmlファイルを指定したのが関係していると思いますが、それはクイックスタートガイドにありました。localhost アドレスの横にポート番号で hdfs を指定する必要がある理由がわかりません。