問題タブ [pyspark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
16522 参照

python - Spark\PySpark でモデルを保存\ロードする正しい方法は何ですか?

PySpark と MLlib を使用して Spark 1.3.0 を使用しています。モデルを保存して読み込む必要があります。このようなコードを使用します(公式ドキュメントから取得)

model0 を使用しようとすると、次のような長いトレースバックが返されます。

だから私の質問は - 私は何か間違ったことをしていますか? 私がデバッグした限り、モデルは (ローカルおよび HDFS 上に) 保存されており、いくつかのデータを含む多くのファイルが含まれています。モデルは正しく保存されているように感じますが、おそらく正しくロードされていません。私もグーグルで検索しましたが、関連するものは何も見つかりませんでした。

この save\load 機能は最近 Spark 1.3.0 に追加されたようです。このため、別の質問があります - リリース 1.3.0 より前のモデルを保存\ロードする推奨方法は何でしたか? 少なくとも Python については、これを行う良い方法が見つかりませんでした。Pickle も試してみましたが、ここで説明したのと同じ問題に直面しましたApache Spark mllib モデルを Python に保存する

0 投票する
1 に答える
2495 参照

python - PySparkを使用してPandaデータフレームからSpark SQLテーブルに書き込む方法は?

pandas.DataFrame.to_sql() メソッドを使用すると、データ フレームの結果をデータベースに書き出すことができます。これは、標準の RDBMS のコンテキストでは正常に機能します。PySpark を使用して、Spark SQL でこれを使用する方法は? このメソッドの接続パラメーターが必要です。それは何ですか?

ありがとう、マット

0 投票する
2 に答える
19312 参照

python - sparkで複数のキーでグループ化する方法は?

複合キーと値の形式のタプルがたくさんあります。例えば、

id[1..n] または pd[1..n] に基づいて情報を集約できる、このコレクションに対して sql のような操作を実行したいと考えています。SQLContext を使用せずに、バニラの pyspark API を使用して実装したいと考えています。私の現在の実装では、一連のファイルから読み取り、RDD をマージしています。

集約された配列を値として作成するつもりです。例えば、

ここで、5.0,7.5,8.1 は [t1,t2,t3] を表します。私は現在、辞書を使用してバニラのpythonコードで同じことを達成しています。小さいデータセットでは問題なく機能します。しかし、これはより大きなデータセットに対応できない可能性があるため、心配しています。pyspark apis を使用して同じことを達成する効率的な方法はありますか?

0 投票する
5 に答える
34758 参照

authentication - Spark(またはより良い:pyspark)を介してS3ファイルをローカルで読み取る

0 投票する
4 に答える
8315 参照

numpy - spark-submit 時に numpy という名前のモジュールがありません

numpy をインポートする python ファイルをスパーク送信していますが、no module named numpyエラーが発生しています。

numpy —python-files の卵を引き込もうと思っていましたが、その卵を作成する方法がわかりません。しかし、その後、pyspark 自体が numpy を使用していることに気付きました。自分のバージョンの numpy を取り込むのはばかげているでしょう。

ここで行うべき適切なことについて何か考えはありますか?

0 投票する
2 に答える
410 参照

apache-spark - PySpark には、Word2VecModel でアクセス可能な getVectors メソッドがありません

getVectors()pyspark 1.2.0 Spark バージョンのメソッドにアクセスしようとしていますが、pyspark の状態 -

Scala/Javaを使用してこれにアクセスする方法しかないのでしょうか、それとも何かできることがありますか。

0 投票する
1 に答える
2673 参照

apache-spark - pyspark によって起動される jvm のオプションを指定する

指定された接続先のjvmを起動するときに、pysparkスクリプトによって使用されるjvmオプションはどのように/どこにありますか?

jvm デバッグ オプションの指定に特に関心があります。

ありがとう。

0 投票する
1 に答える
9238 参照

python - Spark データフレームの udf() 用の Python パッケージの関数

pyspark を介した Spark データフレームの場合pyspark.sql.functions.udfuser defined function (UDF).

numpyudf()などのPython パッケージの関数を使用できるのだろうか?np.random.normal

0 投票する
1 に答える
915 参照

java - Java のインストールに関する問題 (Spark の使用が困難になる)

Spark をローカルで実行しようとしています。起動すると、次のエラーが表示されます。これは、Java インストール (またはそのパス) に何か問題があることを示唆しています。これは Mac OS Yosemite 上にあります。

これを修正する方法はありますか?さらに情報が必要な場合はお知らせください(どこから始めればよいかわかりません)

編集:明らかにどこかに設定が間違っています。どこにあるのかわかりません。私のbashプロファイルには、次の行があります

また、 java -version を実行すると、次のようになります。

0 投票する
0 に答える
921 参照

python - PythonシェルでPySparkをインポートできません

$SPARK_HOME/bin/pyspark ファイルに以下を追加してみました:

これは正しい方法ですか?輸入できないからです。何か不足していますか?