問題タブ [pyspark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30583 問題

0 投票する

2 に答える

5014 参照

python - スタンドアロンアプリケーションの pyspark のインポート

Spark の使い方を学んでいます。私は今までこの記事に従っていました。pyspark をインポートしようとすると、次のエラーが発生します。pyspark には accumulators.py ファイルがあります。

このエラーを解決するにはどうすればよいですか? 私は使用しますwindows 7 and java-8。パイソンのバージョンはPython 2.7.6 :: Anaconda 1.9.2 (64-bit)

2015-02-09T11:29:10.737

0 投票する

1 に答える

708 参照

maven - Maven でビルドした後に Spark をインストールする

クラスターへの Spark のインストールに何日も苦労しています。

クラスターは Hadoop 2.2 を使用しており、YARN で PySpark を使用したいためです。MAVEN を使用して Spark をビルドする必要がありました。このプロセスの出力は .jar ファイルです: spark-assembly-1.2.0-hadoop2.2.0.jar (私は Java に詳しくありません)。この .jar ファイルは、Java を使用して任意のノードで実行しようとしても実行されません (「メインクラスが見つからないか、読み込めませんでした」)。

私が見つけたインストール手順には、私の MAVEN ビルドの出力ではない .sh ファイルの実行が含まれています。

ここで何が欠けていますか？ドキュメントで答えが見つかりません。

maven apache-spark hadoop-yarn pyspark

2015-02-10T01:24:24.983

0 投票する

1 に答える

7464 参照

python - Python で Apache Spark mllib モデルを保存する

適合モデルを Spark のファイルに保存しようとしています。RandomForest モデルをトレーニングする Spark クラスターがあります。適合したモデルを保存して、別のマシンで再利用したいと考えています。Javaシリアライゼーションを行うことを推奨するWeb上の投稿をいくつか読みました。私はpythonで同等のことをしていますが、うまくいきません。トリックは何ですか？

このエラーが発生しています：

Apache Spark 1.2.0 を使用しています。

python pyspark apache-spark-mllib

2015-02-10T09:11:21.610

0 投票する

1 に答える

396 参照

amazon-web-services - AWSでPyspark、Ipythonを使用して、一定の出力ストリームを抑制する方法は?

次の方法で、AWS ec2 インスタンスの ipython で pyspark を起動しました。

Ipython が起動し、動作しているようです。しかし、今何が起こっているのですか?

私はまだコマンドを実行できます。Enter キーを数回押すだけで、コマンドラインが表示されます。ただし、大量のテキストが常にスクロールされるため、作業が困難になります。このフィードバックを抑制する方法はありますか?

amazon-web-services apache-spark ipython pyspark

2015-02-20T00:01:53.037

0 投票する

1 に答える

2389 参照

python - (Py) Spark - 時間枠でユーザーごとにグループ化

大量のログファイルを処理しており、ジョブを Spark に移行したいのですが、Pandas で簡単にできるように、イベントベースの時間枠でイベントを集計する方法がわかりません。

これがまさに私がやりたいことです：

何らかのイベントを経験したユーザーのログファイル (以下でシミュレート) について、7 日間さかのぼり、他のすべての列の集計を返したいと思います。

パンダの中はこちら。これを PySpark に移植する方法はありますか?

与えます:

この DataFrame を user_id でグループ化し、「イベント」から 7 日より古い行を集計から除外したいと思います。

パンダでは、次のようになります。

目的の出力を提供します (ユーザーごとに 1 行、ここで event_date は event==1 に対応します):

Spark でこの結果を取得するには、どこから始めればよいか知っている人はいますか?

python apache-spark apache-spark-sql pyspark

2015-02-24T22:55:39.600

1 2 3 4 5 6 7 8 9 10

問題タブ [pyspark]

python - スタンドアロン アプリケーションの pyspark のインポート

maven - Maven でビルドした後に Spark をインストールする

python - Python で Apache Spark mllib モデルを保存する

amazon-web-services - AWSでPyspark、Ipythonを使用して、一定の出力ストリームを抑制する方法は?

python - (Py) Spark - 時間枠でユーザーごとにグループ化

Reference

python - スタンドアロンアプリケーションの pyspark のインポート