私はconnectedComponents()
pyspark のグラフフレームから使用して、約 1800K の頂点と 500k のエッジを持つかなり大きなグラフの接続コンポーネントを計算しようとしていました。
edgeDF.printSchema()
root
|-- src: string (nullable = true)
|-- dst: string (nullable = true)
vertDF.printSchema()
root
|-- id: string (nullable = true)
vertDF.count()
1879806
edgeDF.count()
452196
custGraph = gf.GraphFrame(vertDF,edgeDF)
comp = custGraph.connectedComponents()
6時間経っても課題は終わらない。Windowsを搭載した単一のマシンでpysparkを実行しています
を。与えられた設定でそのような計算を行うことは実行可能ですか?
b. 次のような警告メッセージが表示されました
[rdd_73_2, rdd_90_2]
[Stage 21:=========> (2 + 2) / 4][Stage 22:> (0 + 2) / 4]16/10/13 01:28:42 WARN Executor: 2 block locks were not released by TID = 632:
[rdd_73_0, rdd_90_0]
[Stage 21:=============> (3 + 1) / 4][Stage 22:> (0 + 3) / 4]16/10/13 01:28:43 WARN Executor: 2 block locks were not released by TID = 633:
[rdd_73_1, rdd_90_1]
[Stage 37:> (0 + 4) / 4][Stage 38:> (0 + 0) / 4]16/10/13 01:28:47 WARN Executor: 3 block locks were not released by TID = 844:
[rdd_90_0, rdd_104_0, rdd_107_0]
これは何を意味するのでしょうか?
c. グラフフレームでグラフが無向であることをどのように指定できますか? 両方向にエッジを追加する必要がありますか?