問題タブ [giraph]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
giraph - Vertex の状態を管理するには、POJO インスタンス変数と Giraph 値のどちらを使用するのが適切ですか?
適切な Giraph 値 ala getValue()ではなく、状態を維持するために Vertex インスタンス変数を使用してもよい場合について混乱しています。ソースで見つけた興味深い例は、インスタンス変数 (closeMap) とカスタム頂点値 (IntArrayListWritable) の両方を持つSimpleTriangleClosingVertexの両方を示しています。シリアライゼーションを台無しにする可能性があるため、インスタンス変数の使用が合法であることに少し驚いています(?)私の質問:どちらも有効ですか?もしそうなら、どうやってどちらかを選ぶのですか?どうもありがとう。
java - Apache Giraph 1.0.0 - メモリはどのように頂点に割り当てられますか?
最近、各頂点が LongWritable ID を持つカスタム頂点クラスを作成することに成功しました。この ID は独自の値でもあります。私の Giraph プログラムは小さな頂点セット (100,000 個の頂点) で正常に実行され、プログラムは完了して期待値を出力します。ただし、ボリュームを 3,000 万頂点に増やすと、合計メモリが上限に達したときにプログラムがハングします (マッパーあたりのヒープ サイズは 1.5 GB です)。私の頂点クラスは ID と値 (8 + 8 = 16 バイト) とエッジ (平均で 8*8*2 = 128 バイト) しか保持していないため、メモリ消費が非常に高い理由がわかりません。以下のログ メッセージから、メモリは 1363 MB で 450 万の頂点で最大になるため、Giraph の実行時に各頂点が 317 バイトを占有します。Giraph 内の追加のデータ構造によって、バイト/頂点が非常に高くなるのですか?
hadoop - どのホストでどのタスクを実行するかを制御するにはどうすればよいですか?
私はGiraphを実行しています。これは、5 つのホスト (4 つの計算ノードと 1 つのヘッド ノード - それらを 0-3 および「w」と呼びます) の小さなCDH4 Hadoop クラスターで実行されます - 以下のバージョンを参照してください。5 つのホストすべてが mapreduce タスクトラッカー サービスを実行しており、「w」もジョブトラッカーを実行しています。私の特定の Giraph アプリケーション (一種のパス検索) にはリソースが逼迫しており、タスクの自動スケジュール ホストの一部の構成が他の構成よりもうまく機能することを発見しました。
より具体的には、私の Giraph コマンド (以下を参照) は 4 つの Giraph ワーカーを指定し、実行時に Hadoop (実際にはZookeeper、IIUC) は、jobtracker Web UI で確認できる 5 つのタスク (1 つのマスターと 4 つのスレーブ) を作成します。3 つ以上のマップ タスクを 'w' に配置すると (たとえば、01www または 1wwww)、そのホストは RAM、CPU、およびスワップを使い果たし、ジョブがハングします。ただし、「w」に含まれるタスクが 2 つ以下 (123ww または 0321w など) になるようにシステムがワークアウトをより均等に分散すると、ジョブは正常に終了します。
私の質問は、1) どのプログラムがタスクからホストへの割り当てを決定しているか、2) それをどのように制御するかです。
どうもありがとう!
バージョン
- CDH: 4.7.3
- Giraph: 「giraph-1.0.0-for-hadoop-2.0.0-alpha」としてコンパイル (CHANGELOG の開始: Release 1.0.0 - 2013-04-15)
- Zookeeper クライアント環境: Zookeeper.version=3.4.5-cdh4.4.0--1、09/04/2013 01:46 GMT に構築
ギラフ コマンド
giraph - ジラフとカサンドラ
Giraph と DSE Cassandra を使用しようとした人はいますか?
実行しようとしましたが、プロセスがハングします:
14/10/21 16:38:24 INFO mapred.JobClient: 実行中のジョブ: job_201410211229_0028>
14/10/21 16:38:25 INFO mapred.JobClient: マップ 80% 削減 0%
コマンドラインは次のとおりです。
dse hadoop jar /usr/local/giraph/giraph-examples/target/giraph-examples-1.1.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jar org.apache.giraph.GiraphRunner -D giraph.zkList=SRVITSD03:22181 org.apache.giraph.examples.SimpleShortestPathsComputation -vif org.apache.giraph.io.formats.JsonLongDoubleFloatDoubleVertexInputFormat -vip /user/hduser/input/tiny_graph.txt -vof org.apache.giraph.io .formats.IdWithValueTextOutputFormat -op /user/rav/giraph/output/shortestpaths -w 4