次のようなエッジと呼ばれるデータフレームがあります。
+------+------+-------------------+
| src| dst| mean_affinity|
+------+------+-------------------+
| [78]| [81]| 0.78547141736462|
| [98]| [102]| 0.8051602291309927|
|[2540]|[3195]| 0.7734367678994718|
| [1]|[1367]|0.37372281429944215|
| [182]|[1602]| 0.3915882096267663|
| [1]| [77]| 0.6999457255005836|
| [55]| [78]| 0.4411667943000793|
+------+------+-------------------+
src および dst 列で繰り返したくありません。たとえば、78 は最初の行の src であるため、最後の行の dst にはなりません。つまり、どの頂点もテーブル内に 1 つしか表示されません。
また、テーブルは mean_affinity でソートする必要があります。このためのクエリを書き始めましたが、うまくいかないようです:
sqlContext.sql("""select e.src, e.dst, e.mean_affinity
from edges e
where not exists
(select src from edges where src = e.dst)""").show()
これはスタックトレースの一部です:
An error occurred while calling o111.sql.
: java.lang.RuntimeException: [3.46] failure: ``)'' expected but identifier src found
where not exists (select src from edges where src = e.dst)
^
at scala.sys.package$.error(package.scala:27)
ありがとう!