マシンのクラスターで実行されている Hadoop と Map-Reduce について多くのことを読みました。複数のコアを備えた SMP で Apache ディストリビューションを実行できるかどうかを知っている人はいますか? 特に、複数の Map-Reduce プロセスを同じマシンで実行できます。スケジューラは、それらを複数のコアに分散させます。ありがとう。- KG
3 に答える
はい。各マシンには、RAM と CPU によって決定される複数の map スロットと reduce スロットがあります (各 JVM インスタンスにはデフォルトで 1GB が必要なので、16 コアの 8GB マシンには 7 つのタスク スロットが必要です)。
構成ノブ: mapred.tasktracker.map.tasks.maximum および mapred.tasktracker.reduce.tasks.maximum を使用して、TaskTracker で同時に生成されるマップ/リデュースの数を制御します。デフォルトでは 2 に設定されているため、TaskTracker の特定のインスタンスで最大 2 つのマップと 2 つの削減が表示されます。
これらをタスクトラッカーごとに設定して、ハードウェアを正確に反映させることができます(つまり、より強力なタスクトラッカーなどでそれらをより高い番号に設定します)。
Apache Hadoop 2.7.3 の場合、私の経験では、YARN を有効にするとマルチコア サポートも有効になります。以下は、単一ノードで YARN を有効にするための簡単なガイドです。
デフォルトの構成はかなりうまく機能しているようです。コアの使用を調整したい場合は、yarn-site.xml ( https://hadoop. apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml )
また、マルチコアをサポートする単純な Hadoop サンドボックスを構成する方法については、https ://bitbucket.org/aperezrathke/hadoop-aee を参照してください。
これらの軽量の MapReduce フレームワークをマルチコア コンピューターに使用できます。
例えば
LeoTask: マルチコア コンピューター向けの軽量で生産的で信頼性の高い mapreduce フレームワーク