EMR で Apache Giraph を試したことがありますか?
EMR で実行するための唯一の要件は、適切なブートストラップ スクリプトをジョブ フロー構成に追加することだけだと思います。次に、標準のカスタム JAR 起動ステップを使用して、Giraph プログラムに適切な引数を指定して Giraph Runner を起動するだけです。
ドキュメンテーション/チュートリアル、または EMR で Giraph との経験を共有できる場合は、非常に高く評価されます。
はい、定期的に EMR で Giraph ジョブを実行しますが、「ジョブ フロー」は使用しません。手動でマスター ノードにログインし、通常の Hadoop クラスターとして使用します (hadoop jar
コマンドでジョブを送信するだけです)。
そうです、ブートストラップ スクリプトを追加して Zookeeper を実行し、Zookeeper の詳細をコア サイトの構成に追加する必要があります。これが私がやった方法です:
ブートストラップ アクション -
Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200
Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh
Zookeeper_install.sh の内容は次のとおりです。
#!/bin/bash
wget --no-check-certificate http://apache.mesi.com.ar/zookeeper/zookeeper3.4./zookeeper3.4.5.tar.gz
tar zxvf zookeeper-3.4.5.tar.gz
cd zookeeper-3.4.5
mv conf/zoo_sample.cfg conf/zoo.cfg
sudo bin/zkServer.sh start
次に、Giraph jar ファイルを (scp を使用して) マスター ノードにコピーし、次に ssh でマスター ノードにコピーし、hadoop jar
コマンドを使用してジョブを送信します。
それが役立つことを願っています。
これは、giraph-user メーリング リストの関連するメール スレッドです。
https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html