Hadoop 0.21.0を考えると、フレームワークは、個々のマップに関連する開いているファイル記述子の数に関してどのような仮定を行い、操作を減らしますか?具体的には、ジョブの実行中にHadoopが新しいファイル記述子を開いたり、ディスクにスピルしたりする原因となるサブオペレーションは何ですか?
MultipleOutputs
(これは、システムによって提供される保証に非常に明確にねじ込まれているため、意図的にの使用を無視しています。)
ここでの私の理論的根拠は単純です。Hadoop用に作成する各ジョブが、各マッパーまたはレデューサーに必要な有限数のファイル記述子を保証するようにしたいのです。Hadoopは、これをプログラマーから元気に抽象化します。これは、サーバー管理中にドロップする他の靴がなければ、通常は良いことです。
私はもともと、サーバー障害についてクラスター管理側からこの質問をしていました。私はプログラミングも担当しているので、この質問はここでも同様に適切です。