問題タブ [pyspark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
70175 参照

mysql - pyspark mysql jdbc load o23.load の呼び出し中にエラーが発生しました 適切なドライバーがありません

私は自分の Mac でdocker image sequenceiq/sparkを使用して、これらのspark の例を調査します。調査プロセス中に、この回答に従ってそのイメージ内の spark を 1.6.1 にアップグレードし、Simple Data Operations例を開始するとエラーが発生しました。起こりました:

実行するdf = sqlContext.read.format("jdbc").option("url",url).option("dbtable","people").load()とエラーが発生し、pyspark コンソールの完全なスタックは次のようになります。

これが私が今まで試したことです:

  1. をダウンロードmysql-connector-java-5.0.8-bin.jarし、 に入れ/usr/local/spark/lib/ます。それでも同じエラーです。

  2. t.py次のように作成します。

    /li>

それから、私は試しspark-submit --conf spark.executor.extraClassPath=mysql-connector-java-5.0.8-bin.jar --driver-class-path mysql-connector-java-5.0.8-bin.jar --jars mysql-connector-java-5.0.8-bin.jar --master local[4] t.pyました。結果はまだ同じです。

  1. pyspark --conf spark.executor.extraClassPath=mysql-connector-java-5.0.8-bin.jar --driver-class-path mysql-connector-java-5.0.8-bin.jar --jars mysql-connector-java-5.0.8-bin.jar --master local[4] t.py次に、次の を使用した場合と使用しない場合の両方を試しましたt.pyが、それでも同じです。

この間、mysql は実行されています。そして、ここに私のOS情報があります:

Hadoop のバージョンは 2.6 です。

次はどこに行けばいいのかわからないので、誰かがアドバイスをくれることを願っています、ありがとう!

0 投票する
1 に答える
496 参照

apache-spark - HiveContext: JDBC クライアント経由で一時テーブルを表示できません

ピスパークでは、

一時テーブルを登録しました

pyspark から一時テーブル「テスト」を表示できます

スパークスリフトサーバーを始めました

JDBC クライアントを起動し、spark thrift サーバーに接続しました。

一時テーブルを表示できません。私が見逃しているものはありますか?

0 投票する
2 に答える
973 参照

python - Pyspark: 2 つの RDD の 2 つの列の条件に基づいて、対応する 2 つの列の合計を計算する

同じ列を持つ 2 つの RDD があります:
rdd1 :-

rdd2 :-

frequenciesと に基づいてmidの合計を計算したいuid。結果は次のようになります。

前もって感謝します。

編集:私はこの方法でも解決策を達成しました(map-reduceを使用):

出力:

0 投票する
1 に答える
716 参照

apache-spark - 分解後、最初 (または n 番目) の要素のみを取る

爆発()関数の後に最初の要素だけを取ることは可能ですか?

たとえば、上記の場合、[Max, Black]、[Spot, white]、および [Michael,Yellow] のみを保持します。各セルの 2 番目の要素 (3、2、および 1) は、実際には破棄できます。

ありがとう!

0 投票する
1 に答える
1551 参照

apache-spark - SparkSQL は、最初の爆発の後に 2 番目に爆発します

次のコマンドを使用して、最初の爆発の後に 2 番目の爆発を実行しています。

その後、エラーが発生しました: u"cannot resolve 'name_x' given input columns: [names, fieldA, fieldB, fieldC]; line 1 pos 15"

ただし、最初の爆発は問題なく機能します。2回目の爆発で何か間違ったことはありますか?


次に例を示します。

最初の爆発の後、私は得ました:

[Max,Black]、[Spot, White]、および [Michael, Yellow] を取得できるように、name_x で 2 番目の爆発を作成したいと考えています。この後、Max、Spot、Michael のみを取得して新しい列に配置できるように、3 回目の爆発を実行したいと考えています。これは可能ですか?

ありがとう!

0 投票する
1 に答える
14613 参照

apache-spark - Pyspark の IN 句を含む case when ステートメント

Spark プログラミングは初めてで、一連の値が入力に表示されたときに値を割り当てるシナリオがあります。以下は、タスクを達成するために使用する伝統的な SQL コードです。Spark でも同じことを行う必要があります。

SQL コード:

私はwhen1つの条件だけでスパークを使用することを認識しています。