私はmongo-hadoopアダプターを使用してmap/reduceジョブを実行しています。起動時間とジョブにかかる時間を除いて、すべて問題ありません。データセットが非常に小さい場合でも、マップ時間は13秒、削減時間は12秒です。実際、mapred-site.xmlとcore-site.xmlの設定を変更しました。しかし、map/reduceにかかる時間は一定のようです。私がそれを減らすことができる方法はありますか?また、 hanborqから最適化されたHadoopディストリビューションについても調べました。ワーカープールを使用して、ジョブの起動/セットアップを高速化します。hanborqディストリビューションはあまりアクティブではないため、他の場所で利用可能な同等のものはありますか。4か月前に更新され、古いバージョンのHadoopに基づいて構築されています。
私の設定のいくつかは次のとおりです:mapred-site.xml:
<property>
<name>mapred.child.java.opts</name>
<value>-Xms1g</value>
</property>
<property>
<name>mapred.sort.avoidance</name>
<value>true</value>
</property>
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapreduce.tasktracker.outofband.heartbeat</name>
<value>true</value>
</property>
<property>
<name>mapred.compress.map.output</name>
<value>false</value>
</property>
core-site.xml:
<property>
<name>io.sort.mb</name>
<value>300</value>
</property>
<property>
<name>io.sort.factor</name>
<value>100</value>
</property>
どんな助けでも大歓迎です。前もって感謝します。