グラフ処理の方法とツールへの遠足を始めたところです。私たちが基本的に行っていること - ページランク、クラスタリング係数、トライアングル数、直径、接続性などのいくつかの標準メトリックをカウントします。以前は Octave に満足していましたが、10^9 ノード/エッジとしましょう。 .
したがって、可能なソリューションは、Hadoop/Giraph、Spark/GraphX、それらの上に Neo4j などで作成された分散クラウドです。
しかし、私は初心者なので、実際に何を選ぶべきか誰かアドバイスできますか? Spark/GraphX を使用する場合と Neo4j を使用する場合の違いがわかりませんでした。今のところ、Spark/GraphX を検討しています。Python に似た構文が多く、neo4j には独自の Cypher があるためです。neo4j でのビジュアライゼーションはクールですが、このような大規模では役に立ちません。追加レベルのソフトウェア (neo4j) を使用する理由があるのか 、それとも単に Spark/GraphX を使用するのかわかりません。純粋な Hadoop と Giraph、GraphX、または Hive を使用した場合のように、neo4j はそれほど時間を節約できないことを理解していたので。
ありがとうございました。