問題タブ [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - マップ操作で複数のペアを放出する
次の形式の通話レコードの行があるとします。
特定のユーザーが電話に出ていた合計時間 (ユーザーが CallingUser または RecomingUser であった期間の合計) を知りたい場合。
(CallingUser, Duration)
事実上、特定のレコードに対して、2 つのペアとを作成したいと考えています(ReceivingUser, Duration)
。
これを行う最も効率的な方法は何ですか? 2つを追加できRDDs
ますが、これが良いアプローチであるかどうかは不明です:
python-2.7 - PySpark で可視ノードの数を取得する
PySpark でいくつかの操作を実行していますが、最近、構成 (Amazon EMR にある) のノード数を増やしました。ただし、ノード数を 3 倍 (4 から 12) に増やしても、パフォーマンスは変わらないようです。そのため、新しいノードが Spark に表示されるかどうかを確認したいと思います。
次の関数を呼び出しています。
しかし、これは、Spark が認識できるノードの総数ではなく、各ノードに分散されたタスクの総数を示していると思います。
PySpark がクラスターで使用しているノードの量を確認するにはどうすればよいですか?
apache-spark - SparkContext から WebUI URI を取得する方法
IPython ノートブックで pySpark を実行しています。各ノートブックには独自の sparkContext があり、4040 から始まる独自のポートに関連付けられた webUI が
あります。正しい webUI を参照できるように、ポートまたは URI を抽出して出力したいと思います。どうすればこの情報を入手できますか?
apache-spark - from pyspark.streaming import StreamingContext ImportError: ストリーミングという名前のモジュールがありません
from pyspark.streaming import StreamingContext ImportError: ストリーミングという名前のモジュールがありません
pyspark を介してストリーミングを使用しようとすると、このエラーが発生します。scala を介してストリーミングを正常に使用できます。
org.apache.spark.streaming._ をインポートします。
エラーは発生せず、プログラムを実行できます。
http://hortonworks.com/hadoop-tutorial/using-apache-spark-hdp/でsparkを実行しています
apache-spark - PySpark & MLLib: ランダム フォレスト予測のクラス確率
PySpark を使用してトレーニングしたランダム フォレスト オブジェクトのクラス確率を抽出しようとしています。ただし、ドキュメントのどこにもその例は見当たりませんし、の方法でもありませんRandomForestModel
。
RandomForestModel
PySparkの分類子からクラス確率を抽出するにはどうすればよいですか?
以下は、(確率ではなく) 最終的なクラスのみを提供するドキュメントで提供されているサンプル コードです。
メソッドが表示されません。model.predict_proba()
どうすればよいですか??
scala - pyspark から Hadoop 構成値を設定する方法
SparkContext の Scala バージョンには、次のプロパティがあります。
それを使用してHadoopプロパティを設定しました(Scalaで)
例えば
ただし、SparkContext の Python バージョンにはそのアクセサーがありません。PySpark コンテキストで使用される Hadoop 構成に Hadoop 構成値を設定する方法はありますか?
apache-spark - repartition() を含む Spark ジョブの「タスクはまだ開始されていません」
しばらくの間、 pysparkジョブの「タスクがまだ開始されていません」と頭を悩ませた後、問題は次のように分離されました。
作品:
repartition() を追加すると、「タスクがまだ開始されていません」とハングします。
これは、CDH5 にバンドルされている 1.2.0 にあります。
apache-spark - pyspark ワーカーからの HDFS / Hadoop API アクセス
pyspark worker内から hdfs との間でファイルの読み取り/スキャン/書き込みを行う必要があります。
次の API はドライバから実行されるため、適用できないことに注意してください。
等
追加のサードパーティ ライブラリ (pyhadoop など) を使用しないことが非常に望ましいでしょう。
1つのオプションは、例えばシェルアウトすることです
しかし、これを達成するためのよりネイティブなpysparkの方法はありますか?
更新各ワーカーが hdfs から異なるデータを読み取るため、これはデータのブロードキャストの場合ではありません。使用例の 1 つは、各ワーカーでいくつかの大きなバイナリ ファイルを読み取ることです (これは明らかにブロードキャストの場合ではありません)。もう 1 つのケースは、命令を含む「コマンド」ファイルを読み取ることです。私はこのパターンをネイティブ Hadoop と scala spark でうまく使用しました。