hadoop - 完全に分散された Hadoop/MapReduce プログラムで、個々のノードがローカル入力ファイルを読み取れるようにする方法はありますか?

Question

各ノードがいくつかの入力で一連の C++ Hadoop ストリーミングタスクを実行する、完全に分散された Hadoop/MapReduce インスタンスをセットアップしようとしています。ただし、すべての入力タスクを HDFS に移動したくはありません。代わりに、各ノードのローカルフォルダーから入力データを読み取る方法があるかどうかを確認したいと考えています。

とにかくこれを行うことはありますか？

編集: 実行したいhadoopコマンドの例は、次のようなものです:

hadoop jar $HADOOP_STREAM/hadoop-streaming-0.20.203.0.jar \
            -mapper map_example \
            -input file:///data/ \
            -output /output/ \
            -reducer reducer_example \
            -file map_example \
            -file reducer_example

この場合、各ノードに保存されているデータは /data/ ディレクトリにあり、出力を各ノードの /output/ ディレクトリに送りたいと考えています。map_example および reducer_example ファイルは、すべてのノードでローカルに利用できます。

マスターノードで実行される場合、すべてのスレーブノードが基本的にx個のノードで同じタスクを実行し、各ノードにローカル出力ファイルを生成するHadoopコマンドを実装するにはどうすればよいでしょうかローカル入力ファイル)?

ありがとう

score 1 · Accepted Answer

この質問で指摘されているように、これは可能なようです。私はこれをテストしていませんが、HDFS URL の代わりに URLを参照するようにfs.default.name設定できるようです。conf/core-site.xmlfile

参考文献:

http://comments.gmane.org/gmane.comp.jakarta.lucene.hadoop.user/27100
http://librarian.phys.washington.edu/athena/index.php/Running_Hadoop_on_Athena (これは Hadoop の古いバージョンを指します)。

score 0 · Accepted Answer

これは正確には Hadoop ソリューションではありませんが、各スレーブマシンに ssh して map reduce コードを実行する複数のプロセスを fork するプログラム (Python など) を作成できます。

hadoop dfsadmin -report クラスター内の IP を一覧表示できます。各プロセスを各ipsにsshして、マッパーとリデューサーを実行できます。

*nix の Map reduce は、パイプを使用して実装できます。

cat <input> | c++ mapper | sort | c++ reducer > <output_location>

hadoop - 完全に分散された Hadoop/MapReduce プログラムで、個々のノードがローカル入力ファイルを読み取れるようにする方法はありますか?

2 に答える 2

Related

Reference