問題タブ [apache-spark-standalone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - スタンドアロンで動的リソース割り当てをスパークさせる
動的リソース割り当てに関して質問/問題があります。スタンドアロン クラスター マネージャーで spark 1.6.2 を使用しています。
2 つのコアを持つワーカーが 1 つあります。すべてのノードの spark-defaults.conf ファイルに次の引数を設定します。
多くのタスクを含むサンプル アプリケーションを実行します。ドライバーでポート 4040 を開き、上記の構成が存在することを確認できます。
私の問題は、私が何をしても、他のコアが利用可能であっても、アプリケーションが1つのコアしか取得できないことです。
これは正常ですか、それとも構成に問題がありますか?
私が取得したい動作は次のとおりです。同じスパーククラスターで作業している多くのユーザーがいます。クラッツァーの残りの部分が保留されていない限り、各アプリケーションが固定数のコアを取得することを望みます。この場合、新しいアプリケーションが到着するまで、実行中のアプリケーションがコアの合計量を取得することを望みます...
これのためにメソスに行かなければなりませんか?
scala - FAIR は Spark スタンドアロン クラスター モードで使用できますか?
Spark スタンドアロンクラスター マネージャーを使用して 2 ノード クラスターを使用しています。Scala マルチスレッドで同じものを使用して複数のジョブをトリガーしています。私が見つけたのは、 FIFOの性質のためにsc
ジョブが次々とスケジュールされているため、FAIRスケジューリングを使用しようとしたことです。
Job1 と Job2 はランチャー クラスからトリガーされます。これらのプロパティを設定した後でも、ジョブはFIFOで処理されます。FAIRはSpark スタンドアロン クラスター モードで使用できますか?詳しく説明されているページはありますか? Job Scheduling で FAIR と Standalone についてあまり見つけられないようです。私はこのSOF の質問に
apache-spark - spark rest api /api/v1 はメソッドを許可しません
Spark スタンドアロン クラスターをデプロイしましたが、アプリケーション情報のために残りの API にアクセスしようとすると、. アクセスしようとしている URL はhttp://ip:4040/api/v1です。
残りの API ドキュメントへのリンク -> http://spark.apache.org/docs/latest/monitoring.html#rest-api
それは言う
メソッドは許可されていません
これは設定の問題か何かだと思います。
助けてくれてありがとう。
apache-spark - "--deploy-mode cluster" で実行されている Spark スタンドアロン クラスターの特定のスレーブでドライバーを強制的に実行する
2 つの EC2 インスタンス (m4.xlarge) を持つ小さな Spark クラスターを実行しています。
これまでのところ、1 つのノードで spark マスターを実行し、もう 1 つのノードで 1 つの spark スレーブ (4 コア、16g メモリ) を実行してから、spark (ストリーミング) アプリをクライアント デプロイ モードでマスターにデプロイしました。設定の概要は次のとおりです。
--executor-memory 16g
--executor-cores 4
-- ドライバメモリ 8g
-- ドライバーコア 2
-- 展開モードのクライアント
これにより、4 つのコアと 16Gb のメモリで実行されている単一のスレーブ上に単一のエグゼキュータが作成されます。ドライバーは、マスターノードのクラスターの「外部」で実行されます (つまり、マスターによってリソースが割り当てられません)。
理想的には、監視オプションを利用できるように、クラスター展開モードを使用したいと考えています。マスター ノードで 2 番目のスレーブを開始し、2 つのコアと 8g のメモリを割り当てました (マスター デーモン用のスペースを確保するために割り当てられたリソースを小さくしました)。
Spark ジョブをクラスター デプロイ モードで実行すると (上記と同じ設定を使用しますが、--deploy-mode クラスターを使用します)。約 50% の時間で、ドライバーがマスター ノード (2 コアと 8Gb の適切なリソースを持つ) で実行されているスレーブを介して実行され、元のスレーブ ノードに 4 のエグゼキューターを割り当てる自由を与えるという目的の展開が得られます。コア & 16Gb。ただし、残りの 50% の時間は、マスターが非マスター スレーブ ノードでドライバーを実行します。つまり、そのノードで 2 コアと 8Gb メモリを備えたドライバーを取得することになり、エグゼキューターを起動するのに十分なリソースを持つノードが残りません (これには 4 コアと 16Gb が必要です)。
Spark マスターがドライバーに特定のワーカー/スレーブを使用するように強制する方法はありますか? Spark が 2 つのスレーブ ノード (1 つは 2 コア、もう 1 つは 4 コア) があり、私のドライバーには 2 つのコアが必要であり、私のエグゼキューターには 4 つのコアが必要であることを知っているとすれば、適切な最適な配置を理想的にはうまくいくでしょうが、これはそうではありません。そのようです。
どんなアイデアや提案もありがたく受け取った!
ありがとう!
azure - リモート Spark スタンドアロン エグゼキュータ エラー
リモート サーバー (Microsoft azure) で Spark (2.0.1) スタンドアロン クラスターを実行しています。Spark アプリをこのクラスターに接続できますが、タスクが実行されずにスタックします (次の警告が表示されます
WARN org.apache.spark.scheduler.TaskSchedulerImpl - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
) 。
私が試したこと:
アプリのメモリ、CPU 要件がサーバー構成を超えないようにしました。
これらの変数を my に提供しました
spark-env.sh
:SPARK_PUBLIC_DNS ,SPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOST
- マスター/ワーカー/アプリケーションの webui をブラウザーで確認できます。
- リモートサーバーですべてのポートを開きます(私のIPとVPN用)。
- 無効
ufw
。
私が知る限り、私のワーカーはマスターに中継することができません。エグゼキュータは、次の stderr で 120 秒後にタイムアウトします。
マスターに接続するために、vm のプライベート IPSPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOST
とパブリック IPを使用しています。SPARK_PUBLIC_DNS
マスターとワーカーは同じ vm で実行されています。そして、この正確なセットアップは ec2 インスタンスで機能しています。どんな助けでも大歓迎です。
更新:マシン内から通常どおり spark-shell を実行できます。問題はこれに似ているようですvm でポートを開いていますが、エグゼキューターはドライバーと対話できません。ドライバーをインスタンス/ラップトップのパブリック IP にバインドする方法はありますか?
apache-spark - ローカルホスト: マスターの場合は 8080 - サイトに到達できません
これらは、spark-env.sh で行った次の構成です。
奴隷.sh:
その後、コマンドを実行しました:./sbin/start-master.sh
出力:
org.apache.spark.deploy.master.Master を開始し、/opt/Spark/spark-2.0.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master- にログを記録します。 1-s.out。
コマンド プロンプトを返します。spark-standalone doc に記載されているように、出力には URL がなく、入力するとlocalhost:8080
サイトに到達できないことが示されます。マスターを再度実行しようとすると、既に実行中のプロセスであることが示されます。Java、Python、および Spark のすべてのパスを設定しました。何が間違っているのですか、それともスパーク マスター UI を起動するために他に何かすることはありますか? または、他のすべての Web ページが正常に読み込まれる場合でも、プロキシに何か問題がある可能性がありますか?
注: Linux OS と spark-2.0.2-bin-hadoop2.7 を使用しています。