問題タブ [graphframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Apache Spark のクラスタ ノード間で異なるグラフ ファイルを個別に処理するにはどうすればよいですか?
多数のグラフ ファイルがあり、各グラフに約 500K のエッジがあるとします。私はこれらのグラフ ファイルを Apache Spark で処理してきましたが、グラフ処理ジョブ全体を効率的に並列化する方法を考えていました。今のところ、すべてのグラフ ファイルは他のファイルとは独立しているため、ファイルとの並列性を探しています。したがって、100 個のグラフ ファイルがあり、20 個のノード クラスターがある場合、各ノードで各ファイルを処理できるので、各ノードは 5 つのファイルを処理します。現在、単一のグラフが多数の段階で処理されているようで、多くのシャッフルが発生しています。
問題は、いくつかのファイルでも処理するのに多くの時間がかかることです。そして、20,000 個のファイルを処理する必要があります。各ファイルには 800K のエッジがあります。すべての依存エッジが単一ノードで処理されることを保証するデータ パーティション戦略を理解できれば、シャッフルは少なくなるでしょう。
または、これを効率的に解決する最善の方法は何ですか?
java - 頂点とエッジをグラフフレームのデータフレームとして読み込む
私は2つのjsonファイルを持っています。そして、この 2 つの json ファイルの間には「フレンド」関係があります。この 2 つの json ファイルを使用して頂点とエッジを作成したいと思います。その後、graphFrame を作成します。ここでは、Java と Spark を使用しています。しかし、どうすればそれができるのか理解できません。助けてください!!
python - 基本的な GraphFrames の例を実行できません
pyspark を使用して単純な GraphFrame の例を実行しようとしています。
火花バージョン: 2.0
グラフフレームのバージョン: 0.2.0
Jupyter でグラフフレームをインポートできます。
GraphFrame オブジェクトを作成しようとすると、次のエラーが発生します。
Pythonコードは、Javaクラス(jar内)を読み取ろうとしますが、見つけられないようです。これを修正する方法はありますか?
apache-spark - Spark GraphFrame パッケージを SparkR にインポートする
SparkR に GraphFrame を含めてアクセスする簡単な方法はありますか?
コマンドラインを介して次のようにパッケージを含めました。
sparkr --packages graphframes:graphframes:0.2.0-spark2.0-s_2.10
ですが、SparkR でパッケージを使用する方法に関するドキュメントが見つかりません。