問題タブ [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - スタンドアロン アプリケーションの pyspark のインポート
Spark の使い方を学んでいます。私は今までこの記事に従っていました。pyspark をインポートしようとすると、次のエラーが発生します。pyspark には accumulators.py ファイルがあります。
このエラーを解決するにはどうすればよいですか? 私は使用しますwindows 7 and java-8
。パイソンのバージョンはPython 2.7.6 :: Anaconda 1.9.2 (64-bit)
maven - Maven でビルドした後に Spark をインストールする
クラスターへの Spark のインストールに何日も苦労しています。
クラスターは Hadoop 2.2 を使用しており、YARN で PySpark を使用したいためです。MAVEN を使用して Spark をビルドする必要がありました。このプロセスの出力は .jar ファイルです: spark-assembly-1.2.0-hadoop2.2.0.jar (私は Java に詳しくありません)。この .jar ファイルは、Java を使用して任意のノードで実行しようとしても実行されません (「メイン クラスが見つからないか、読み込めませんでした」)。
私が見つけたインストール手順には、私の MAVEN ビルドの出力ではない .sh ファイルの実行が含まれています。
ここで何が欠けていますか?ドキュメントで答えが見つかりません。
python - Python で Apache Spark mllib モデルを保存する
適合モデルを Spark のファイルに保存しようとしています。RandomForest モデルをトレーニングする Spark クラスターがあります。適合したモデルを保存して、別のマシンで再利用したいと考えています。Javaシリアライゼーションを行うことを推奨するWeb上の投稿をいくつか読みました。私はpythonで同等のことをしていますが、うまくいきません。トリックは何ですか?
このエラーが発生しています:
Apache Spark 1.2.0 を使用しています。
amazon-web-services - AWSでPyspark、Ipythonを使用して、一定の出力ストリームを抑制する方法は?
次の方法で、AWS ec2 インスタンスの ipython で pyspark を起動しました。
Ipython が起動し、動作しているようです。しかし、今何が起こっているのですか?
私はまだコマンドを実行できます。Enter キーを数回押すだけで、コマンド ラインが表示されます。ただし、大量のテキストが常にスクロールされるため、作業が困難になります。このフィードバックを抑制する方法はありますか?
python - (Py) Spark - 時間枠でユーザーごとにグループ化
大量のログ ファイルを処理しており、ジョブを Spark に移行したいのですが、Pandas で簡単にできるように、イベント ベースの時間枠でイベントを集計する方法がわかりません。
これがまさに私がやりたいことです:
何らかのイベントを経験したユーザーのログ ファイル (以下でシミュレート) について、7 日間さかのぼり、他のすべての列の集計を返したいと思います。
パンダの中はこちら。これを PySpark に移植する方法はありますか?
与えます:
この DataFrame を user_id でグループ化し、「イベント」から 7 日より古い行を集計から除外したいと思います。
パンダでは、次のようになります。
目的の出力を提供します (ユーザーごとに 1 行、ここで event_date は event==1 に対応します):
Spark でこの結果を取得するには、どこから始めればよいか知っている人はいますか?