hadoop - ハイメモリマシンでの Hadoop 単一ノード構成

Question

多くの RAM と非常に限られた空きディスク容量を持つマシン上に、デフォルトのパラメーター値 ( [1]と[2]などを参照) を持つ Apache Hadoop 1.1.1 の単一ノードインスタンスがあります。次に、この Hadoop インスタンスがマップタスク中に大量のディスク領域を浪費していることに気付きました。高い RAM 容量を活用し、ディスク容量の使用を減らすために、どの構成パラメーターに注意を払う必要がありますか?

score 2 · Accepted Answer

いくつかの mapred.* パラメータを使用してマップ出力を圧縮できます。これにより、マッパー出力を格納するために必要なディスク容量が大幅に削減されます。いくつかの良い指針については、この質問を参照してください。

異なる圧縮コーデックには異なる問題があることに注意してください (つまり、GZip は LZO よりも多くの CPU を必要としますが、LZO を自分でインストールする必要があります)。このページでは、Hadoop での圧縮の問題について適切な議論が行われていますが、少し古くなっています。

必要な RAM の量は、map-reduce ジョブで何をしているかによって異なりますが、ヒープサイズを次のように増やすことができます。

conf/mapred-site.xml mapred.map.child.java.opts

詳細については、クラスターのセットアップを参照してください。

score 0 · Accepted Answer

hdfs-site.xml で使用dfs.datanode.du.reservedして、使用しないディスク容量を指定できます。Hadoop がより高いメモリ使用量を補うことができるかどうかはわかりません。

ただし、ディスク I/O を集中的に使用する mapreduce ジョブを実行すると、問題が発生します。その場合、いくら設定しても役に立たないと思います。

hadoop - ハイ メモリ マシンでの Hadoop 単一ノード構成

2 に答える 2

Related

Reference

hadoop - ハイメモリマシンでの Hadoop 単一ノード構成