“pyspark”の関連問題_Stack Overflow日本語サイト

0 投票する

20 に答える

196083 参照

python - Pythonシェルでpysparkをインポートする

これは、別のフォーラムでの他の人の質問のコピーであり、回答がなかったので、同じ問題を抱えているので、ここで再質問すると思いました. ( http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736を参照)

マシンに Spark が正しくインストールされており、Python インタープリターとして ./bin/pyspark を使用すると、エラーなしで pyspark モジュールを使用して Python プログラムを実行できます。

ただし、通常の Python シェルを実行しようとすると、pyspark モジュールをインポートしようとすると、次のエラーが発生します。

そしてそれは言います

どうすればこれを修正できますか? Python を pyspark ヘッダー/ライブラリ/などにポイントするために設定する必要がある環境変数はありますか? Spark インストールが /spark/ の場合、どの pyspark パスを含める必要がありますか? または、pyspark プログラムは pyspark インタープリターからのみ実行できますか?

2014-04-23T22:40:14.817

0 投票する

6 に答える

48440 参照

python - PySpark ドロップ行

PySparkでRDDから行を削除するにはどうすればよいですか? 特に最初の行は、データセットに列名が含まれる傾向があるためです。API を熟読しても、これを行う簡単な方法が見つからないようです。もちろん、Bash / HDFS 経由でこれを行うこともできますが、PySpark 内からこれを行うことができるかどうかを知りたいだけです。

python apache-spark pyspark

2014-07-13T01:08:33.563

0 投票する

16 に答える

151444 参照

python - Spark で INFO ログをオフにする方法は?

AWS EC2 ガイドを使用して Spark をインストールしました。bin/pysparkスクリプトを使用してプログラムを正常に起動し、spark プロンプトに到達し、クイックスタートクイックも正常に実行できました。

INFOただし、各コマンドの後にすべての詳細ログを停止する方法を理解することはできません。

以下のコード (コメントアウト、OFF に設定) でほぼすべての可能なシナリオを試しましたが、アプリケーションを起動log4j.propertiesするフォルダー内のファイル内confと各ノードで何も実行していません。各ステートメントを実行した後でも、ロギングINFOステートメントが出力されます。

これがどのように機能するはずなのか、私は非常に混乱しています。

を使用するときの完全なクラスパスは次のSPARK_PRINT_LAUNCH_COMMANDとおりです。

Spark コマンド: /Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk/Contents/Home/bin/java -cp :/root/spark-1.0.1-bin-hadoop2/conf:/root/spark-1.0.1 -bin-hadoop2/conf:/root/spark-1.0.1-bin-hadoop2/lib/spark-assembly-1.0.1-hadoop2.2.0.jar:/root/spark-1.0.1-bin-hadoop2/lib /datanucleus-api-jdo-3.2.1.jar:/root/spark-1.0.1-bin-hadoop2/lib/datanucleus-core-3.2.2.jar:/root/spark-1.0.1-bin-hadoop2 /lib/datanucleus-rdbms-3.2.1.jar -XX:MaxPermSize=128m -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.SparkSubmit spark-shell --class org.apache.spark. repl.Main

の内容spark-env.sh:

python scala apache-spark hadoop pyspark

2014-08-07T22:48:58.613

0 投票する

3 に答える

49060 参照

python - Spark で単純な 1 行の文字列を RDD に変換する

私は簡単な行を持っています:

要素が1つだけのRDDに変換したいと思います。私が試してみました

しかし、次のようになります。

何か案は？

python apache-spark pyspark distributed-computing rdd

2014-10-02T09:07:14.783

0 投票する

2 に答える

3783 参照

apache-spark - Apache Spark でデータを集計する方法

3 つのノードに分散システムがあり、データはそれらのノード間で分散されています。たとえば、test.csv3 つのノードすべてに存在するファイルがあり、4 つの列が含まれています。

上記の結果セットを集計してみたいと思います。id、c1、c2、およびc3列ごとにデータセットを集計して、このように出力するにはどうすればよいですか?

私は次のことを試しました：

apache-spark apache-spark-sql pyspark

2014-10-18T19:42:17.020

0 投票する

1 に答える

1623 参照

apache-spark - マップ MissingCorpusError で使用される NLTK からの PySpark textblob

PySpark でテキスト前処理の関数を実装しようとしています。ブートストラップスクリプトから Python の依存関係をインストールする Amazon EMR があります。これらの依存関係の 1 つは textblob "python -m textblob.download_corpora" です。次に、問題なくすべてのマシンでローカルに使用しようとしています。

しかし、Spark から実行しようとすると、次のエラーが発生します。

同じユーザーで Spark スクリプトと単一ノードスクリプトの両方を実行しようとしています。何が間違っている可能性があるのか誰かが考えていますか？

apache-spark nltk emr textblob pyspark

2014-10-24T15:31:39.880

0 投票する

3 に答える

44574 参照

python - spark-submit と pyspark の違いは何ですか?

pyspark を起動してから次のコマンドを実行すると:

すべて問題ありません。ただし、コマンドラインと spark-submit を使用して同じことを実行しようとすると、エラーが発生します。

私のスクリプト:

なぜこうなった？この相違を引き起こす pyspark の実行と spark-submit の実行の違いは何ですか? そして、どうすればこれをspark-submitで機能させることができますか?

編集:これを実行してbashシェルから実行しようとしましたpyspark my_script.py collapse ./data/が、同じエラーが発生しました。すべてが機能するのは、Python シェルでスクリプトをインポートしたときだけです。

python apache-spark pyspark

2014-11-04T02:30:15.210

問題タブ [pyspark]

Reference