頂点とそれらが接続されている他の頂点を含むデータセットがあります。このデータセットは無向グラフを表します。私が決定しようとしているのは、データセット内に存在する目立たない切断されたグラフの数です。
たとえば、以下のデータ (頂点、接続された頂点の配列) は、2 つの個別の切断されたグラフを表します。
123,[567,345]
345,[123,567,789]
567,[123,345]
789,[345]
321,[987]
987,[321]
このような小さなデータ セットでは、答えにたどり着く方法を想像するのは非常に簡単ですが、これを数億の頂点を持つデータ セットにスケールアップすると、非常に重要なものがあるかどうかわかりません。効率的。私は Hadoop で実行できる何かを行うことに傾倒していますが、MapReduce ジョブを直接記述したり、Giraph や Faunus のようなものを使用したりする場合は、アドバイスをもらいたいです。
ありがとう。