1

状況:

次のようなツイーターデータに基づいて、Spark (scala) でグラフを作成しました。

  • 各頂点にはツイート ID (Long) とツイートの本文 (String) があります。
  • 各エッジは、ソース ツイートをリツイートに接続します。

私が行った方法は、エッジのファイルからグラフを作成することです。

val followerGraph = GraphLoader.edgeListFile(sc, "C:\\Users\\...\\tweetGraphEdgesData.txt")

次に、outerJoinVertices を使用して各頂点に属性を追加します

   val graph = followerGraph.outerJoinVertices(verticesData){
    case(uid,deg,Some(attrList))=>attrList
    case(uid,deg,None)=> Array.empty[String]
   }

問題:

ここで、各頂点に、それが接続されているエッジの数 (基本的にはリツイートされた回数を意味します) を付けたいと思います。これどうやってするの?

4

1 に答える 1

0

出辺の数で頂点を結合するだけです

graph.vertices.leftOuterJoin(graph.outDegrees)
于 2015-09-09T13:05:43.147 に答える