問題タブ [pyspark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - PySpark & MLLib: ランダム フォレスト機能の重要性
PySpark を使用してトレーニングしたランダム フォレスト オブジェクトの機能の重要度を抽出しようとしています。ただし、ドキュメントのどこにもこれを行う例は見当たりませんし、RandomForestModel のメソッドでもありません。
RandomForestModel
PySpark のリグレッサーまたは分類子から機能の重要度を抽出するにはどうすればよいですか?
ドキュメントで提供されているサンプル コードを次に示します。ただし、機能の重要性については言及されていません。
利用可能な属性が表示されませんmodel.__featureImportances_
-- どこで確認できますか?
python - Pyspark は、「Row」オブジェクトには partitionBy() の属性「_get_object_id」がありません
次の SchemaRDD を検討してください。
次のことを試してみましたが、partitionByを使用できません。
どちらも「行」オブジェクトに属性「_get_object_id」がありませんというエラーが発生します。
次に、SchemaRdd を次のように分割する方法 - 選択された #partitions - 特定のパーティショナー - _get_object_id の問題が解決された後、パーティショナーである 2 番目のパラメーターも提供したい
scala - PySpark: hash() ResultIterable が collect() の前後で異なる
私はPySpark (Scala で書かれたspark-hashプロジェクトに基づく) で局所性に敏感なハッシュを実装しようとしています。ハッシュのステップで奇妙な動作が発生しています。
各ベクトルに対して生成された minhash のリストのハッシュを取得するステップでは、この出力は、並列 (PySpark REPL) でハッシュするか、順次 (後collect
) ハッシュするかに大きく依存するように見えます。たとえば、この方法でハッシュを生成すると ( を呼び出すとgroupByKey
、同じバンドにハッシュされる要素が得られるはずです):
あなたが期待するものに似たリストを取得します。つまり、多くの一意の番号:
ただし、まったく同じデータを取得しますが、Spark コンストラクトを使用してハッシュします。
これで、次のようなリストが得られます。
同じハッシュが何度も繰り返されます。ただし、同じ Spark コンストラクトを使用し、最後の 1 秒で ResultIterable をfrozenset にキャストした場合:
ここで、一意のハッシュのリストを再度取得します。何が起こっているのか分かりますか?ResultIterable
Spark の実行中にオブジェクトに対してハッシュがどのように機能するかについて何かおかしなことはありますか?
python-2.7 - Spark インストールのエラー --pyspark
Windows 8 に spark 1.2.1 をインストールしており、Hadoop 2.4 用のビルド済みパッケージをダウンロードしました。
pysparkを実行していると、次のエラーが発生します。
検索したところ、パス変数が正しく定義されていないために一般的にエラーが発生することがわかりましたが、チェックしたところ、変数はすべて適切に配置されています。どうすればエラーを解決できますか? 「指定されたパスが見つかりません。」どのパスについて話しているのですか。
python - pyspark スクリプトで SparkContext にアクセスする方法
次の SOF の質問How to run script in Pyspark and drop into IPython shell when done? pyspark スクリプトを起動する方法を示します。
しかし、既存の spark コンテキストにアクセスするにはどうすればよいでしょうか?
新しいものを作成するだけでは機能しません。
しかし、既存のものを使用しようとすると..既存のものは何ですか?
つまり、SparkContext インスタンスの変数はありません
python - pysparkでDataFrameを通常のRDDに戻す方法は?
私は使用する必要があります
DataFrame では使用できないメソッド。すべての DataFrame メソッドは、DataFrame の結果のみを参照します。では、DataFrame データから RDD を作成する方法は?
注: これは 1.2.0 からの (1.3.0 での) 変更です。
@dpangmaoからの回答からの更新: メソッドは .rdd です。(a) 公開されているか、(b) パフォーマンスにどのような影響があるかを理解したいと思っていました。
(a) は「はい」であり、(b) - ここでは、パフォーマンスに重大な影響があることがわかります。 mapPartitionsを呼び出して、新しい RDD を作成する必要があります。
dataframe.py で(ファイル名も変更されていることに注意してください (以前は sql.py でした):
apache-spark - PySparkスクリプトで使用されるコア数を設定しますか?
PySpark プログラムで使用するコア数を設定する方法を知りたいです。
私は少し検索を行ってきましたが、決定的な答えを見つけることができませんでした。
python - Spark でデータフレーム列を更新する
新しい spark DataFrame API を見ると、データフレーム列を変更できるかどうかは不明です。
x
データフレームの行列の値を変更するにはどうすればy
よいですか?
これpandas
は次のようになります。
編集:以下の内容を統合すると、既存のデータフレームは不変であるため変更できませんが、必要な変更を加えた新しいデータフレームを返すことができます。
次のような条件に基づいて列の値を置き換えるだけの場合np.where
:
列に対して何らかの操作を実行し、データフレームに追加される新しい列を作成する場合:
新しい列に古い列と同じ名前を付けたい場合は、追加の手順を追加できます。