hadoop - Hadoop - こぼれたレコードの数を減らす

Question

4 GB RAM と 4 コアを備えたスタンドアロン/疑似モードで実行されている Ubuntu vm があります。

以下を除くすべてがデフォルトに設定されています。

io.file.buffer.size=65536
io.sort.factor=50
io.sort.mb=500
mapred.tasktracker.map.tasks.maximum=4
mapred.tasktracker.reduce.tasks.maximum=4

この ofc はプロダクションマシンではありませんが、微調整を行うためにいじっています。

私の問題は、ベンチマークの Hadoop ストリーミングジョブ (1.8 GB のテキストファイルで個別のレコードを取得する) を実行すると、大量のこぼれたレコードが発生し、上記の調整ではこぼれが減らないように見えることです。また、Ubuntu のシステムモニターでメモリ使用量を監視すると、メモリが完全に使用されることはなく、2.2 GB を超えることもありません。

chaging を見てきましたHADOOP_HEAPがmapred.map.child.java.opts、mapred.reduce.child.java.optsデフォルトで十分であるように見えるため、これらを何に設定すればよいかわかりません。

Hadoop が残りの RAM を利用できるようにして、こぼれたレコードを減らす (できればジョブを高速化する) ことを可能にする、私が見逃している設定はありますか? それとも、これは通常の動作ですか?

どうもありがとう！

score 1 · Accepted Answer

map/reduce タスクに割り当てられるデフォルトのメモリは 200MB です。-Dmapred.child.java.opts=-Xmx512M でその値を増やすことができます

とにかく、これは Hadoop チューニングHadoop Performanceに関する非常に興味深い資料です。

それが役に立てば幸い！

hadoop - Hadoop - こぼれたレコードの数を減らす

2 に答える 2

Related

Reference