1

たとえば、次のような頂点とエッジを持つ 2 つのグラフがあるとします。

import org.apache.spark.graphx._
import org.apache.spark.rdd.RDD

val vertexRdd1: RDD[(VertexId, (String, Int))] = sc.parallelize(Array(
      (1L, ("a", 28)),
      (2L, ("b", 27)),
      (3L, ("c", 65))
))

val edgeRdd1: RDD[Edge[Int]] = sc.parallelize(Array(
    Edge(1L, 2L, 1),
    Edge(2L, 3L, 8)
))

val vertexRdd2: RDD[(VertexId, (String, Int))] = sc.parallelize(Array(
    (1L, ("a", 28)),
    (2L, ("b", 27)),
    (3L, ("c", 28)),
    (4L, ("d", 27)),
    (5L, ("e", 65))
))

val edgeRdd2: RDD[Edge[Int]]  = sc.parallelize(Array(
    Edge(1L, 2L, 1),
    Edge(2L, 3L, 4),
    Edge(3L, 5L, 1),
    Edge(2L, 4L, 1)
))

エッジ属性を考慮せずに、これら 2 つのグラフ間の共通エッジの数を取得するにはどうすればよいですか? したがって、上記の例では、共通のエッジの数は 2 であり、共通のエッジは次のとおりです。 2L、3L、4)。

私はscalaでプログラミングしています。

4

1 に答える 1

1

graph1( Graph(vertexRdd1, edgeRdd1)) とgraph2( )があると仮定すると、Graph(vertexRdd2, edgeRdd2))エッジをマップしてからメソッド(srcId, dstId)を使用できます。intersection

val srcDst1 = graph1.edges.map(e => (e.srcId, e.dstId))
val srcDst2 = graph2.edges.map(e => (e.srcId, e.dstId))
srcDst1.intersection(srcDst2).count()
于 2015-07-21T14:45:07.057 に答える