この質問は簡単に思えますが、その背後にある実際の作業を理解できません。512 MB のチャンクに分割し、Map reduce を使用した Merge Sort を使用するように並べ替えます。
だからここに私が持っている実際の質問があります:
ファイルを 512 MB のチャンクに分割し、別のホスト マシンに送信して並べ替えるとします。これらのマシンがマージ ソートを使用したとします。ここで、2000 台のマシンでそれぞれ 2000、512 メガのチャンクをソートしたとします。それらをマージして戻すと、どのように機能しますか? またサイズが大きくなりませんか?たとえば、2 つの 512 MB をマージすると、RAM のサイズである 1024 MB になりますが、これはどのように機能しますか? サイズが 1 GB を超えるため、どのマシンも 512 MB を超えるチャンクを別のチャンクとマージすることはできません。
マージの最後に、2 つの 0.5 TB チャンクを別の 0.5 TB チャンクとマージするにはどうすればよいでしょうか。仮想メモリの概念はここで機能しますか?
私は自分の基本を明確にするためにここにいます。この非常に重要な質問を (正しく) 正しく尋ねていることを願っています。また、誰がこのマージを行うべきですか (ソート後)? 私のマシンですか、それとも 2000 台のマシンのいくつかですか?