この質問は私の質問の一部に答えますが、完全には答えません。
これを管理するスクリプトを実行するにはどうすればよいですか?ローカルのファイルシステムからですか? MrJob や Dumbo のようなものは具体的にどこに出てくるのでしょうか? これ以上の代替手段はありますか?
Hadoop ストリーミングと Python を使用して、各反復 (MapReduce ジョブ) の出力が次の反復への入力となる K-Means を実行しようとしています。
私はあまり経験がなく、この作業を行うのに役立つ情報があれば幸いです。