Hadoopでのヒープの使用を分析するために学校の仕事をしています。フォーラム コメントの長さの中央値を計算するために、2 つのバージョンの mapreduce プログラムを実行する必要があります。2 つ目は「メモリを意識した」もので、リデューサーは非常にメモリ効率の高いデータ構造を使用してデータを処理します。
目的は、両方のプログラムを使用して異なるサイズのデータを処理し、最初のプログラムでメモリ使用量がどのように速くなるかを観察することです (最終的にメモリが不足するまで)。
私の質問は、hadoop または reduce タスクのヒープ使用量を取得するにはどうすればよいですか?
「コミットされたヒープの合計使用量 (バイト)」というカウンターがこのデータを含んでいると思いますが、プログラムの両方のバージョンがほぼ同じ値を返すことがわかりました。
プログラムの正確性に関しては、「メモリ無意識」のものは大量の入力でメモリが不足して失敗しますが、他のプログラムはそうではなく、終了することができます。
前もって感謝します