問題タブ [pyspark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Is it possible to get sparkcontext of an already running spark application?
I am running spark on Amazon EMR with yarn as the cluster manager. I am trying to write a python app which starts and caches data in memory. How can I allow other python programs to access that cached data i.e.
I start an app Pcache -> Cache data and keep that app running. Another user can access that same cached data running a different instance.
My understanding was that it should be possible to get a handle on the already running sparkContext and access that data? Is that possible? Or do I need to set up an API on top of that Spark App to access that data. Or may be use something like Spark Job Server of Livy.
apache-spark - Spark データ フレームをキャッシュして別のスクリプトで参照する方法
データ フレームをキャッシュしてから、別のスクリプトで参照 (クエリ) することは可能ですか?...私の目標は次のとおりです。
- スクリプト 1 で、データ フレーム (df) を作成します。
- スクリプト 1 を実行して df をキャッシュする
- スクリプト 2 では、df のデータをクエリします
apache-spark - グループ化されたデータをpysparkのjsonに保存する方法
私はpysparkが初めてです
次のようなデータセットがあります(いくつかの列のスナップショットのみ)
データをキーでグループ化したい。私の鍵は
私の最終的な目標は、データをこのようにフォーマットされた JSON に変換することです
例えば
1384611034793[{},{},{}],....
データフレームを作成しました(基本的に2つのテーブルを結合して、さらにフィールドを取得しています)
FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")
さて、上記の結果を得るには、キーに基づいて結果でグループ化する必要があります。次のことを行いました
これにより、グループ化されたデータがintpになり、読んだ後、それを直接使用できないことがわかり、データフレームに変換して保存する必要があります。
私はそれに慣れていないので、データフレームに戻すために助けが必要です。または、他の方法もあれば幸いです。
pyspark - pysparkで各値を他のすべての値と比較する方法は?
以下に示すように、スパークにデータフレームがあります
次のようなデータフレームが必要です:-
したがって、両方の列のすべての可能な組み合わせを考慮する必要があります。これはどのように達成できますか?
デカルト結合を試しましたが、データセットが非常に小さいため時間がかかりすぎます。他の代替手段はありますか?
ありがとう。
apache-spark - PySpark、SparkSQL、Cassandra と連携するには?
この話のさまざまなアクター (PySpark、SparkSQL、Cassandra、および pyspark-cassandra コネクタ) と少し混乱しています。
私が理解しているように、Spark はかなり進化し、SparkSQL は現在 (「データフレーム」と共に) 重要なコンポーネントになっています。特に Cassandra に接続する場合は特に、SparkSQL なしで動作する理由はまったくないようです。
私の質問は次のとおりです。どのコンポーネントが必要で、それらを可能な限り簡単な方法で接続するにはどうすればよいですか?
Scalaではspark-shell
簡単にできます
その後
どうすればそれを行うことができpyspark
ますか?
ここに、私が収集した部分的な回答とともに、いくつかのサブ質問があります (間違っていれば修正してください)。
pyspark-casmandra が必要ですか (そうは思いません - そもそも何をしていたのかわかりません)
使用する必要があります
pyspark
か、それとも正規のものを使用jupyter notebook
して必要なものを自分でインポートできますか?
apache-spark - Spark.sqlは、他のテーブルに一致する列がない行を選択します
次のようなエッジと呼ばれるデータフレームがあります。
src および dst 列で繰り返したくありません。たとえば、78 は最初の行の src であるため、最後の行の dst にはなりません。つまり、どの頂点もテーブル内に 1 つしか表示されません。
また、テーブルは mean_affinity でソートする必要があります。このためのクエリを書き始めましたが、うまくいかないようです:
これはスタックトレースの一部です:
ありがとう!