1

多くの RAM と非常に限られた空きディスク容量を持つマシン上に、デフォルトのパラメーター値 ( [1][2]などを参照) を持つ Apache Hadoop 1.1.1 の単一ノード インスタンスがあります。次に、この Hadoop インスタンスがマップ タスク中に大量のディスク領域を浪費していることに気付きました。高い RAM 容量を活用し、ディスク容量の使用を減らすために、どの構成パラメーターに注意を払う必要がありますか?

4

2 に答える 2

2

いくつかの mapred.* パラメータを使用してマップ出力を圧縮できます。これにより、マッパー出力を格納するために必要なディスク容量が大幅に削減されます。いくつかの良い指針については、この質問を参照してください。

異なる圧縮コーデックには異なる問題があることに注意してください (つまり、GZip は LZO よりも多くの CPU を必要としますが、LZO を自分でインストールする必要があります)。このページでは、Hadoop での圧縮の問題について適切な議論が行われていますが、少し古くなっています。

必要な RAM の量は、map-reduce ジョブで何をしているかによって異なりますが、ヒープ サイズを次のように増やすことができます。

conf/mapred-site.xml mapred.map.child.java.opts     

詳細については、クラスターのセットアップを参照してください。

于 2012-12-08T00:50:20.953 に答える
0

hdfs-site.xml で使用dfs.datanode.du.reservedして、使用しないディスク容量を指定できます。Hadoop がより高いメモリ使用量を補うことができるかどうかはわかりません。

ただし、ディスク I/O を集中的に使用する mapreduce ジョブを実行すると、問題が発生します。その場合、いくら設定しても役に立たないと思います。

于 2012-12-07T22:54:31.247 に答える