問題タブ [spark-graphx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1107 参照

graph - Spark GraphX - Spark で JSON ファイルを読み取り、データからグラフを作成するにはどうすればよいですか?

私は Spark と Scala を初めて使用します。JSON ファイルから一連のツイーター データを読み取って、頂点がツイートを表し、エッジがツイートのリツイートであるツイートに接続するグラフに変換しようとしています。オリジナル投稿作品。これまでのところ、JSON ファイルから読み取り、RDD のスキーマを理解することができました。SchemaRDD オブジェクトから何らかの方法でデータを取得し、頂点用の RDD とエッジ用の RDD を作成する必要があると思います。これはこれにアプローチする方法ですか、それとも代替ソリューションがありますか? どんな助けや提案も大歓迎です。

0 投票する
0 に答える
723 参照

scala - Apache Spark GraphX の複数のサブグラフの処理

複数のサブグラフにフィルター処理したい親グラフがあるので、各サブグラフに関数を適用してデータを抽出できます。私のコードは次のようになります。

mySubgraphFunction は、サブグラフを作成し、計算を実行し、結果データのタプルを返す関数です。

これを実行すると、mySubgraphFunction が GraphX.subgraph を呼び出す時点で Java ヌル ポインター例外が発生します。用語の RDD で collect を呼び出すと、これを機能させることができます (パフォーマンスのために RDD に永続化も追加されています)。

collect() を呼び出す必要がない (つまり、これを分散操作にする) 方法はありますか? ~1k のサブグラフを作成していますが、パフォーマンスが低下しています。

0 投票する
1 に答える
158 参照

arrays - Spark で配列を変換する

ここで、キーが次数で、値が隣接頂点 ID であるキーと値のペア RDD が必要です。基本的には (id,Array[1,2,3]) から {(id,1)(id,2)(id,3)} に変更したい

ネストされたマップを試し、外側のマップの文字列を作成しました。私はここで立ち往生しています。誰かが助けることができれば。前もって感謝します。

0 投票する
2 に答える
13398 参照

apache-spark - Spark の無効なチェックポイント ディレクトリ

私は自分のプログラムで長時間の反復を行っており、数回の反復ごとにキャッシュしてチェックポイントを設定したいので (この手法は、Web で長い系統をカットするために推奨されています)、これを行うことで StackOverflowError が発生しません。

そして、このようにチェックポイントディレクトリを設定しました

ただし、最終的にプログラムを実行すると、例外が発生します

私は 3 台のコンピューターを使用しており、各コンピューターには Ubuntu 14.04 がインストールされており、各コンピューターで Hadoop 2.4 以降を備えたビルド済みバージョンの spark 1.4.1 も使用しています。

0 投票する
1 に答える
711 参照

scala - Spark Graphx Scalaのグラフで頂点(すでに属性を持っている)に追加の属性を追加する方法は?

状況:

次のようなツイーターデータに基づいて、Spark (scala) でグラフを作成しました。

  • 各頂点にはツイート ID (Long) とツイートの本文 (String) があります。
  • 各エッジは、ソース ツイートをリツイートに接続します。

私が行った方法は、エッジのファイルからグラフを作成することです。

次に、outerJoinVertices を使用して各頂点に属性を追加します

問題:

ここで、各頂点に、それが接続されているエッジの数 (基本的にはリツイートされた回数を意味します) を付けたいと思います。これどうやってするの?