問題タブ [pyspark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5014 参照

python - スタンドアロン アプリケーションの pyspark のインポート

Spark の使い方を学んでいます。私は今までこの記事に従っていました。pyspark をインポートしようとすると、次のエラーが発生します。pyspark には accumulators.py ファイルがあります。

このエラーを解決するにはどうすればよいですか? 私は使用しますwindows 7 and java-8。パイソンのバージョンはPython 2.7.6 :: Anaconda 1.9.2 (64-bit)

0 投票する
1 に答える
708 参照

maven - Maven でビルドした後に Spark をインストールする

クラスターへの Spark のインストールに何日も苦労しています。

クラスターは Hadoop 2.2 を使用しており、YARN で PySpark を使用したいためです。MAVEN を使用して Spark をビルドする必要がありました。このプロセスの出力は .jar ファイルです: spark-assembly-1.2.0-hadoop2.2.0.jar (私は Java に詳しくありません)。この .jar ファイルは、Java を使用して任意のノードで実行しようとしても実行されません (「メイン クラスが見つからないか、読み込めませんでした」)。

私が見つけたインストール手順には、私の MAVEN ビルドの出力ではない .sh ファイルの実行が含まれています。

ここで何が欠けていますか?ドキュメントで答えが見つかりません。

0 投票する
1 に答える
7464 参照

python - Python で Apache Spark mllib モデルを保存する

適合モデルを Spark のファイルに保存しようとしています。RandomForest モデルをトレーニングする Spark クラスターがあります。適合したモデルを保存して、別のマシンで再利用したいと考えています。Javaシリアライゼーションを行うことを推奨するWeb上の投稿をいくつか読みました。私はpythonで同等のことをしていますが、うまくいきません。トリックは何ですか?

このエラーが発生しています:

Apache Spark 1.2.0 を使用しています。

0 投票する
1 に答える
396 参照

amazon-web-services - AWSでPyspark、Ipythonを使用して、一定の出力ストリームを抑制する方法は?

次の方法で、AWS ec2 インスタンスの ipython で pyspark を起動しました。

Ipython が起動し、動作しているようです。しかし、今何が起こっているのですか?

私はまだコマンドを実行できます。Enter キーを数回押すだけで、コマンド ラインが表示されます。ただし、大量のテキストが常にスクロールされるため、作業が困難になります。このフィードバックを抑制する方法はありますか?

0 投票する
1 に答える
2389 参照

python - (Py) Spark - 時間枠でユーザーごとにグループ化

大量のログ ファイルを処理しており、ジョブを Spark に移行したいのですが、Pandas で簡単にできるように、イベント ベースの時間枠でイベントを集計する方法がわかりません。

これがまさに私がやりたいことです:

何らかのイベントを経験したユーザーのログ ファイル (以下でシミュレート) について、7 日間さかのぼり、他のすべての列の集計を返したいと思います。

パンダの中はこちら。これを PySpark に移植する方法はありますか?

与えます:

この DataFrame を user_id でグループ化し、「イベント」から 7 日より古い行を集計から除外したいと思います。

パンダでは、次のようになります。

目的の出力を提供します (ユーザーごとに 1 行、ここで event_date は event==1 に対応します):

Spark でこの結果を取得するには、どこから始めればよいか知っている人はいますか?