問題タブ [spark-ec2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
59 参照

linux - spark_ec2.py を使用してクラスターをロードするときに amazon-linux を ubuntu に変更します

ec2 用に提供されたスクリプトから起動すると(spark_ec2.py)、クラスターは amazon-linux ノードでスピンオフされます。私はそれをubuntuにしたい.( spark_ec2.py =>私は現在brewバージョンを使用しており、それが問題にならないことを願っています)

検索したところ、同様の問題について議論している次のスレッドが見つかりました。残念ながら、クラスター ノードの既定のオペレーティング システムを変更する方法について明確な回答はありません。 AWS EC-2 の Spark AMI

それに加えて、クラスターを開始したときに、spark-shell を起動しようとしたところ、次のエラーが発生しました。

AWS を使用するのはこれが初めてです。何度も試みた後、クラスターを起動するために必要なすべてのアクションを把握しましたが、現在、互いに関連している場合と関連していない場合がある上記の 2 つの問題に対処しています。

0 投票する
0 に答える
429 参照

amazon-web-services - EC2 spark-shell が接続例外で失敗しました: java.net.ConnectException: 接続参照

Spark Web サイト ( http://spark.apache.org/docs/latest/ec2-scripts.html )の指示に従って、単純な ec2 クラスターをセットアップしました。

しかし、spark-shell ( ./spark/bin/spark-shell) を開始すると、接続拒否エラーが発生します。

ログインして、次の環境変数を master に追加しました。

スタック トレースは次のとおりです。

それに加えて、次のものが得られます。

これはポート関連の問題でしょうか? なぜなら;

ここでは、ポートを使用してマシンに接続しようとしています9000が、webUI にログインすると、ポートで動作していることがわかり35073ます。私のマシンへのスパークのインストール。

0 投票する
1 に答える
75 参照

apache-spark - Spark: スレーブでドライブ サイズを増やす方法

それぞれが 100 GB のドライブを持つスレーブでクラスターを開始するにはどうすればよいですか?

サイズが 100GB の AMI を使用しました。それでも、Spark はサイズを変更し、8GB ドライブを開始しました。その制限を 100GB に増やすにはどうすればよいですか?

0 投票する
1 に答える
85 参照

apache-spark - Apache Spark-ec2 スクリプト:「エラー 不明な Spark バージョン」。init.sh が壊れていますか?

spark-ec2 スクリプトを使用して AWS EC2 インスタンスを起動したいと考えています。次のエラーが表示されます。

インストールされた Spark はローカルで spark-1.6.3-bin-hadoop2.6.tgz から取得されたものであるため、インストールで spark-1.6.3-bin-hadoop1.tgz にアクセスしようとしないでください。init.sh では、HADOOP_MAJOR_VERSION==1 の場合、この Spark バージョンがインストールされます。

問題は次のとおりです。

-- http://s3.amazonaws.com/spark-related-packagesには hadoop1 を使用する spark バージョンがないため、spark のインストールが失敗する基本的な理由です。

--HADOOP_MAJOR_VERSION は、私のインストールに Hadoop バージョン 2.x があるにもかかわらず、インストール中に 1 に設定されているようで、上記の問題につながります。

--spark_ec2.py は、インストール中に github から最新の spark-ec2 をプルするため、ローカルで修正できる可能性はありません。このスクリプトを github から直接分岐してハッキングする自信がありません。

これを修正する方法についてのアイデアはありますか?

0 投票する
2 に答える
2982 参照

pyspark - PySpark カーネル (JupyterHub) は糸クライアント モードで実行できますか?

私の現在のセットアップ:

  • HDFS と YARN を使用した Spark EC2 クラスター
  • ジュプターハブ(0.7.0)
  • python27 を使用した PySpark カーネル

この質問に使用している非常に単純なコード:

Spark スタンドアロンで期待どおりに動作する PySpark カーネルには、カーネル json ファイルに次の環境変数があります。

ただし、yarn-client モードで実行しようとすると、JupyerHub ログからのログ出力は次のようになりますが、永遠に動かなくなります。

ここで説明したように、 HADOOP_CONF_DIR 環境を追加しました。変数を Hadoop 構成が存在するディレクトリを指すように変更し、PYSPARK_SUBMIT_ARGS --masterプロパティを「yarn-client」に変更しました。また、この間に他のジョブが実行されておらず、ワーカーが正しく登録されていることも確認できます。

他の人が行ったように、PySpark カーネルを使用して JupyterHub ノートブックを構成して YARN で実行することが可能であるという印象を受けています。