Spark の GraphX でグラフを作成しました。このグラフには 10 億のノードと 100 億以上のエッジが含まれる可能性があるため、このグラフを何度も作成する必要はありません。
一度ビルドして保存し(HDFSが最適だと思います)、いくつかのプロセスを実行し、数日または数週間でアクセスし、新しいノードとエッジを追加して実行する機能が必要ですその上でさらにいくつかのプロセス。
Apache Spark の GraphX でそれを行うにはどうすればよいですか?
編集:私は潜在的な解決策を見つけたと思いますが、これが最善の方法であるかどうかを誰かに確認してもらいたいです.
たとえば、グラフがある場合、graph
グラフを vertexRDD と edgeRDD 別にテキスト ファイルに格納する必要があります。その後、次のように、これらのテキスト ファイルにアクセスできます。
graph.vertices.saveAsTextFile(somePath)
graph.edges.saveAsTextFile(somePath)
私が今持っている質問の 1 つは、 saveAsTextFile() または saveAsObjectFile() を使用する必要があるかどうかです。そして、後でそれらのファイルにどのようにアクセスすればよいでしょうか?