hadoop - Hadoopでの分散データの割り当て

Question

複数の物理マシン上の複数の仮想マシンでのHadoopデータの割り当てについて質問したいと思います。ファイルブロックのレプリカを異なる物理マシンに割り当て、各物理マシンのブロック数のバランスを保つための割り当て戦略を設計する論文を見つけました。そのため、ファイルブロックレプリカがすべて1台の物理マシン（複数のVMを含む）にスタックしないようにします。

その紙の仕事を実行してみたいです。複数のVMで構成される分散物理マシンに均等に割り当てられたファイルブロックレプリカを構成する方法に固執していました。mapreduceアルゴリズムでコーディングされていますか、それともhdfsインストールで構成されていますか？紙面では、仮想ノードの位置情報をネットワークトポロジに追加すると述べています。仮想ノードのネットワーク上の場所は、/default-rackから/Phy0に変更される場合があります。物理ノードのネットワークロケーションの下にレイヤーを追加します。

わからない、Hadoopでそれらを構成する方法??

score 1 · Accepted Answer

Hadoop でのこの構成は、ラック認識と呼ばれます。

ラック認識は、core-site.xml のプロパティ「topology.script.file.name」を使用して構成されます。

「topology.script.file.name」が構成されていない場合、/default-rack が任意の IP アドレスに渡されます。つまり、すべてのノードが同じラックに配置されます。

Hadoop でラック認識を構成するには、次の 2 つの手順が必要です。

core-site.xml で「topology.script.file.name」を構成し、

<property>

<name>topology.script.file.name</name>

<value>core/rack-awareness.sh</value>

</property>
必要に応じて、rack-awareness.sh スクリプトを実装します。ラック認識スクリプトのサンプルは、ここにあります。

http://wiki.apache.org/hadoop/topology_rack_awareness_scripts

hadoop - Hadoopでの分散データの割り当て

1 に答える 1

Related

Reference