問題タブ [spark-ec2]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

23 問題

0 投票する

0 に答える

59 参照

linux - spark_ec2.py を使用してクラスターをロードするときに amazon-linux を ubuntu に変更します

ec2 用に提供されたスクリプトから起動すると(spark_ec2.py)、クラスターは amazon-linux ノードでスピンオフされます。私はそれをubuntuにしたい.( spark_ec2.py =>私は現在brewバージョンを使用しており、それが問題にならないことを願っています)

検索したところ、同様の問題について議論している次のスレッドが見つかりました。残念ながら、クラスターノードの既定のオペレーティングシステムを変更する方法について明確な回答はありません。 AWS EC-2 の Spark AMI

それに加えて、クラスターを開始したときに、spark-shell を起動しようとしたところ、次のエラーが発生しました。

AWS を使用するのはこれが初めてです。何度も試みた後、クラスターを起動するために必要なすべてのアクションを把握しましたが、現在、互いに関連している場合と関連していない場合がある上記の 2 つの問題に対処しています。

2016-02-16T19:07:26.120

0 投票する

0 に答える

429 参照

amazon-web-services - EC2 spark-shell が接続例外で失敗しました: java.net.ConnectException: 接続参照

Spark Web サイト ( http://spark.apache.org/docs/latest/ec2-scripts.html )の指示に従って、単純な ec2 クラスターをセットアップしました。

しかし、spark-shell ( ./spark/bin/spark-shell) を開始すると、接続拒否エラーが発生します。

ログインして、次の環境変数を master に追加しました。

スタックトレースは次のとおりです。

それに加えて、次のものが得られます。

これはポート関連の問題でしょうか? なぜなら;

ここでは、ポートを使用してマシンに接続しようとしています9000が、webUI にログインすると、ポートで動作していることがわかり35073ます。私のマシンへのスパークのインストール。

amazon-web-services amazon-ec2 apache-spark aws-ec2 spark-ec2

2016-02-19T20:34:54.433

0 投票する

1 に答える

75 参照

apache-spark - Spark: スレーブでドライブサイズを増やす方法

それぞれが 100 GB のドライブを持つスレーブでクラスターを開始するにはどうすればよいですか?

サイズが 100GB の AMI を使用しました。それでも、Spark はサイズを変更し、8GB ドライブを開始しました。その制限を 100GB に増やすにはどうすればよいですか?

apache-spark amazon-ec2 ec2-ami spark-ec2

2016-08-10T13:58:03.683

0 投票する

1 に答える

85 参照

apache-spark - Apache Spark-ec2 スクリプト:「エラー不明な Spark バージョン」。init.sh が壊れていますか?

spark-ec2 スクリプトを使用して AWS EC2 インスタンスを起動したいと考えています。次のエラーが表示されます。

インストールされた Spark はローカルで spark-1.6.3-bin-hadoop2.6.tgz から取得されたものであるため、インストールで spark-1.6.3-bin-hadoop1.tgz にアクセスしようとしないでください。init.sh では、HADOOP_MAJOR_VERSION==1 の場合、この Spark バージョンがインストールされます。

問題は次のとおりです。

-- http://s3.amazonaws.com/spark-related-packagesには hadoop1 を使用する spark バージョンがないため、spark のインストールが失敗する基本的な理由です。

--HADOOP_MAJOR_VERSION は、私のインストールに Hadoop バージョン 2.x があるにもかかわらず、インストール中に 1 に設定されているようで、上記の問題につながります。

--spark_ec2.py は、インストール中に github から最新の spark-ec2 をプルするため、ローカルで修正できる可能性はありません。このスクリプトを github から直接分岐してハッキングする自信がありません。

これを修正する方法についてのアイデアはありますか?

apache-spark amazon-ec2 spark-ec2

2016-11-19T08:59:17.083

0 投票する

2 に答える

2982 参照

pyspark - PySpark カーネル (JupyterHub) は糸クライアントモードで実行できますか?

私の現在のセットアップ:

HDFS と YARN を使用した Spark EC2 クラスター
ジュプターハブ(0.7.0)
python27 を使用した PySpark カーネル

この質問に使用している非常に単純なコード:

Spark スタンドアロンで期待どおりに動作する PySpark カーネルには、カーネル json ファイルに次の環境変数があります。

ただし、yarn-client モードで実行しようとすると、JupyerHub ログからのログ出力は次のようになりますが、永遠に動かなくなります。

ここで説明したように、 HADOOP_CONF_DIR 環境を追加しました。変数を Hadoop 構成が存在するディレクトリを指すように変更し、PYSPARK_SUBMIT_ARGS --masterプロパティを「yarn-client」に変更しました。また、この間に他のジョブが実行されておらず、ワーカーが正しく登録されていることも確認できます。

他の人が行ったように、PySpark カーネルを使用して JupyterHub ノートブックを構成して YARN で実行することが可能であるという印象を受けています。

pyspark hadoop-yarn jupyterhub spark-ec2

2016-12-12T16:55:36.673

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-ec2]

linux - spark_ec2.py を使用してクラスターをロードするときに amazon-linux を ubuntu に変更します

amazon-web-services - EC2 spark-shell が接続例外で失敗しました: java.net.ConnectException: 接続参照

apache-spark - Spark: スレーブでドライブ サイズを増やす方法

apache-spark - Apache Spark-ec2 スクリプト:「エラー 不明な Spark バージョン」。init.sh が壊れていますか?

pyspark - PySpark カーネル (JupyterHub) は糸クライアント モードで実行できますか?

Reference

apache-spark - Spark: スレーブでドライブサイズを増やす方法

apache-spark - Apache Spark-ec2 スクリプト:「エラー不明な Spark バージョン」。init.sh が壊れていますか?

pyspark - PySpark カーネル (JupyterHub) は糸クライアントモードで実行できますか?