状況:
次のようなツイーターデータに基づいて、Spark (scala) でグラフを作成しました。
- 各頂点にはツイート ID (Long) とツイートの本文 (String) があります。
- 各エッジは、ソース ツイートをリツイートに接続します。
私が行った方法は、エッジのファイルからグラフを作成することです。
val followerGraph = GraphLoader.edgeListFile(sc, "C:\\Users\\...\\tweetGraphEdgesData.txt")
次に、outerJoinVertices を使用して各頂点に属性を追加します
val graph = followerGraph.outerJoinVertices(verticesData){
case(uid,deg,Some(attrList))=>attrList
case(uid,deg,None)=> Array.empty[String]
}
問題:
ここで、各頂点に、それが接続されているエッジの数 (基本的にはリツイートされた回数を意味します) を付けたいと思います。これどうやってするの?