いくつかの map/reduce ジョブをデバッグするために、基本的に読み取る単純な UNIX コマンドを使用してそれらをテストすることがよくあります
cat data/* | mapper | sort | reduce > out
現在、すべてが正常に機能していますが、コマンドで実際に何が起こるのか疑問に思っていますmap | sort
。
より正確に :
RAM / CPUがどのようにロードされるか誰かが知っています
sort
か?sort
コマンドはオンザフライでデータを並べ替えていますか、それともマップ ジョブが完了するのを待ちますか (マッパーは STDOUT を使用し、データを出力するために計算の終了を待たないことに注意してください)。- かなり大量の入力データを使用しても、期待どおりに RAM に負荷がかからないようです (むしろ、CPU のピークを観察しますが、これを非常に正確に測定しているわけではありません)。プロセスが出力情報量として使用する RAM を減らすことは可能ですか?
あなたの答えをありがとう:)