hadoop - mapreduce の中間出力をリモートサーバーに保存する

Question

私は、16 ノードの Hadoop (バージョン 1.2.0) クラスターを使用します。1 つにはパブリック IP (マスター) があり、15 はプライベートネットワーク (スレーブ) を介して接続されています。

マッパーの出力を保存するために、(これらの 16 ノードに加えて) リモートサーバーを使用することは可能ですか? 問題は、マップフェーズ中にノードのディスク容量が不足し、マップ出力をこれ以上圧縮できないことです。

mapred.local.dirinmapred-site.xmlは、tmp ファイルが保存されているディレクトリのコンマ区切りリストを設定するために使用されることを知っています。理想的には、1 つのローカルディレクトリ (既定のディレクトリ) とリモートサーバー上の 1 つのディレクトリが必要です。ローカルディスクがいっぱいになったら、リモートディスクを使用したいと思います。

score 3 · Accepted Answer

これについてはよくわかりませんが、リンク（http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml）によると、それ：

ローカルディレクトリは、MapReduce が中間データファイルを格納するディレクトリです。ディスク i/o を分散するために、さまざまなデバイス上のディレクトリのコンマ区切りリストを指定できます。存在しないディレクトリは無視されます。

また、チェックアウトする必要がある他のプロパティがいくつかあります。これらが役立つかもしれません：

mapreduce.tasktracker.local.dir.minspacestart : mapreduce.cluster.local.dir のスペースがこれより下に落ちた場合、それ以上のタスクを要求しないでください。バイト単位の値

mapreduce.tasktracker.local.dir.minspacekill : mapreduce.cluster.local.dir のスペースがこれより下に落ちた場合、現在のすべてのタスクが終了してクリーンアップされるまで、それ以上タスクを要求しないでください。また、実行中の残りのタスクを保存するには、そのうちの 1 つを強制終了して、スペースをクリーンアップします。縮小タスクから始めて、最も完了していないタスクに進みます。バイト単位の値。

hadoop - mapreduce の中間出力をリモート サーバーに保存する

2 に答える 2

Related

Reference

hadoop - mapreduce の中間出力をリモートサーバーに保存する