問題タブ [spark-ec2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - spark_ec2.py を使用してクラスターをロードするときに amazon-linux を ubuntu に変更します
ec2 用に提供されたスクリプトから起動すると(spark_ec2.py)
、クラスターは amazon-linux ノードでスピンオフされます。私はそれをubuntuにしたい.( spark_ec2.py =>私は現在brewバージョンを使用しており、それが問題にならないことを願っています)
検索したところ、同様の問題について議論している次のスレッドが見つかりました。残念ながら、クラスター ノードの既定のオペレーティング システムを変更する方法について明確な回答はありません。 AWS EC-2 の Spark AMI
それに加えて、クラスターを開始したときに、spark-shell を起動しようとしたところ、次のエラーが発生しました。
AWS を使用するのはこれが初めてです。何度も試みた後、クラスターを起動するために必要なすべてのアクションを把握しましたが、現在、互いに関連している場合と関連していない場合がある上記の 2 つの問題に対処しています。
amazon-web-services - EC2 spark-shell が接続例外で失敗しました: java.net.ConnectException: 接続参照
Spark Web サイト ( http://spark.apache.org/docs/latest/ec2-scripts.html )の指示に従って、単純な ec2 クラスターをセットアップしました。
しかし、spark-shell ( ./spark/bin/spark-shell
) を開始すると、接続拒否エラーが発生します。
ログインして、次の環境変数を master に追加しました。
スタック トレースは次のとおりです。
それに加えて、次のものが得られます。
これはポート関連の問題でしょうか? なぜなら;
ここでは、ポートを使用してマシンに接続しようとしています9000
が、webUI にログインすると、ポートで動作していることがわかり35073
ます。私のマシンへのスパークのインストール。
apache-spark - Spark: スレーブでドライブ サイズを増やす方法
それぞれが 100 GB のドライブを持つスレーブでクラスターを開始するにはどうすればよいですか?
サイズが 100GB の AMI を使用しました。それでも、Spark はサイズを変更し、8GB ドライブを開始しました。その制限を 100GB に増やすにはどうすればよいですか?
apache-spark - Apache Spark-ec2 スクリプト:「エラー 不明な Spark バージョン」。init.sh が壊れていますか?
spark-ec2 スクリプトを使用して AWS EC2 インスタンスを起動したいと考えています。次のエラーが表示されます。
インストールされた Spark はローカルで spark-1.6.3-bin-hadoop2.6.tgz から取得されたものであるため、インストールで spark-1.6.3-bin-hadoop1.tgz にアクセスしようとしないでください。init.sh では、HADOOP_MAJOR_VERSION==1 の場合、この Spark バージョンがインストールされます。
問題は次のとおりです。
-- http://s3.amazonaws.com/spark-related-packagesには hadoop1 を使用する spark バージョンがないため、spark のインストールが失敗する基本的な理由です。
--HADOOP_MAJOR_VERSION は、私のインストールに Hadoop バージョン 2.x があるにもかかわらず、インストール中に 1 に設定されているようで、上記の問題につながります。
--spark_ec2.py は、インストール中に github から最新の spark-ec2 をプルするため、ローカルで修正できる可能性はありません。このスクリプトを github から直接分岐してハッキングする自信がありません。
これを修正する方法についてのアイデアはありますか?
pyspark - PySpark カーネル (JupyterHub) は糸クライアント モードで実行できますか?
私の現在のセットアップ:
- HDFS と YARN を使用した Spark EC2 クラスター
- ジュプターハブ(0.7.0)
- python27 を使用した PySpark カーネル
この質問に使用している非常に単純なコード:
Spark スタンドアロンで期待どおりに動作する PySpark カーネルには、カーネル json ファイルに次の環境変数があります。
ただし、yarn-client モードで実行しようとすると、JupyerHub ログからのログ出力は次のようになりますが、永遠に動かなくなります。
ここで説明したように、 HADOOP_CONF_DIR 環境を追加しました。変数を Hadoop 構成が存在するディレクトリを指すように変更し、PYSPARK_SUBMIT_ARGS --master
プロパティを「yarn-client」に変更しました。また、この間に他のジョブが実行されておらず、ワーカーが正しく登録されていることも確認できます。
他の人が行ったように、PySpark カーネルを使用して JupyterHub ノートブックを構成して YARN で実行することが可能であるという印象を受けています。