問題タブ [apache-spark-standalone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
895 参照

apache-spark - スタンドアロンで動的リソース割り当てをスパークさせる

動的リソース割り当てに関して質問/問題があります。スタンドアロン クラスター マネージャーで spark 1.6.2 を使用しています。

2 つのコアを持つワーカーが 1 つあります。すべてのノードの spark-defaults.conf ファイルに次の引数を設定します。

多くのタスクを含むサンプル アプリケーションを実行します。ドライバーでポート 4040 を開き、上記の構成が存在することを確認できます。

私の問題は、私が何をしても、他のコアが利用可能であっても、アプリケーションが1つのコアしか取得できないことです。

これは正常ですか、それとも構成に問題がありますか?

私が取得したい動作は次のとおりです。同じスパーククラスターで作業している多くのユーザーがいます。クラッツァーの残りの部分が保留されていない限り、各アプリケーションが固定数のコアを取得することを望みます。この場合、新しいアプリケーションが到着するまで、実行中のアプリケーションがコアの合計量を取得することを望みます...

これのためにメソスに行かなければなりませんか?

0 投票する
1 に答える
822 参照

scala - FAIR は Spark スタンドアロン クラスター モードで使用できますか?

Spark スタンドアロンクラスター マネージャーを使用して 2 ノード クラスターを使用しています。Scala マルチスレッドで同じものを使用して複数のジョブをトリガーしています。私が見つけたのは、 FIFOの性質のためにscジョブが次々とスケジュールされているため、FAIRスケジューリングを使用しようとしたことです。

Job1 と Job2 はランチャー クラスからトリガーされます。これらのプロパティを設定した後でも、ジョブはFIFOで処理されます。FAIRはSpark スタンドアロン クラスター モードで使用できますか?詳しく説明されているページはありますか? Job Scheduling で FAIR と Standalone についてあまり見つけられないようです。私はこのSOF の質問に

0 投票する
1 に答える
832 参照

apache-spark - spark rest api /api/v1 はメソッドを許可しません

Spark スタンドアロン クラスターをデプロイしましたが、アプリケーション情報のために残りの API にアクセスしようとすると、. アクセスしようとしている URL はhttp://ip:4040/api/v1です。

残りの API ドキュメントへのリンク -> http://spark.apache.org/docs/latest/monitoring.html#rest-api

それは言う

メソッドは許可されていません

これは設定の問題か何かだと思います。

助けてくれてありがとう。

0 投票する
1 に答える
1316 参照

apache-spark - "--deploy-mode cluster" で実行されている Spark スタンドアロン クラスターの特定のスレーブでドライバーを強制的に実行する

2 つの EC2 インスタンス (m4.xlarge) を持つ小さな Spark クラスターを実行しています。

これまでのところ、1 つのノードで spark マスターを実行し、もう 1 つのノードで 1 つの spark スレーブ (4 コア、16g メモリ) を実行してから、spark (ストリーミング) アプリをクライアント デプロイ モードでマスターにデプロイしました。設定の概要は次のとおりです。

--executor-memory 16g

--executor-cores 4

-- ドライバメモリ 8g

-- ドライバーコア 2

-- 展開モードのクライアント

これにより、4 つのコアと 16Gb のメモリで実行されている単一のスレーブ上に単一のエグゼキュータが作成されます。ドライバーは、マスターノードのクラスターの「外部」で実行されます (つまり、マスターによってリソースが割り当てられません)。

理想的には、監視オプションを利用できるように、クラスター展開モードを使用したいと考えています。マスター ノードで 2 番目のスレーブを開始し、2 つのコアと 8g のメモリを割り当てました (マスター デーモン用のスペースを確保するために割り当てられたリソースを小さくしました)。

Spark ジョブをクラスター デプロイ モードで実行すると (上記と同じ設定を使用しますが、--deploy-mode クラスターを使用します)。約 50% の時間で、ドライバーがマスター ノード (2 コアと 8Gb の適切なリソースを持つ) で実行されているスレーブを介して実行され、元のスレーブ ノードに 4 のエグゼキューターを割り当てる自由を与えるという目的の展開が得られます。コア & 16Gb。ただし、残りの 50% の時間は、マスターが非マスター スレーブ ノードでドライバーを実行します。つまり、そのノードで 2 コアと 8Gb メモリを備えたドライバーを取得することになり、エグゼキューターを起動するのに十分なリソースを持つノードが残りません (これには 4 コアと 16Gb が必要です)。

Spark マスターがドライバーに特定のワーカー/スレーブを使用するように強制する方法はありますか? Spark が 2 つのスレーブ ノード (1 つは 2 コア、もう 1 つは 4 コア) があり、私のドライバーには 2 つのコアが必要であり、私のエグゼキューターには 4 つのコアが必要であることを知っているとすれば、適切な最適な配置を理想的にはうまくいくでしょうが、これはそうではありません。そのようです。

どんなアイデアや提案もありがたく受け取った!

ありがとう!

0 投票する
0 に答える
621 参照

azure - リモート Spark スタンドアロン エグゼキュータ エラー

リモート サーバー (Microsoft azure) で Spark (2.0.1) スタンドアロン クラスターを実行しています。Spark アプリをこのクラスターに接続できますが、タスクが実行されずにスタックします (次の警告が表示されます WARN org.apache.spark.scheduler.TaskSchedulerImpl - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources) 。

私が試したこと:

  1. アプリのメモリ、CPU 要件がサーバー構成を超えないようにしました。

  2. これらの変数を my に提供しましたspark-env.sh:SPARK_PUBLIC_DNS ,SPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOST

  3. マスター/ワーカー/アプリケーションの webui をブラウザーで確認できます。
  4. リモートサーバーですべてのポートを開きます(私のIPとVPN用)。
  5. 無効ufw

私が知る限り、私のワーカーはマスターに中継することができません。エグゼキュータは、次の stderr で 120 秒後にタイムアウトします。

マスターに接続するために、vm のプライベート IPSPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOSTとパブリック IPを使用しています。SPARK_PUBLIC_DNSマスターとワーカーは同じ vm で実行されています。そして、この正確なセットアップは ec2 インスタンスで機能しています。どんな助けでも大歓迎です。

更新:マシン内から通常どおり spark-shell を実行できます。問題はこれに似ているようですvm でポートを開いていますが、エグゼキューターはドライバーと対話できません。ドライバーをインスタンス/ラップトップのパブリック IP にバインドする方法はありますか?

0 投票する
0 に答える
998 参照

apache-spark - ローカルホスト: マスターの場合は 8080 - サイトに到達できません

これらは、spark-env.sh で行った次の構成です。

奴隷.sh:

その後、コマンドを実行しました:./sbin/start-master.sh

出力:

org.apache.spark.deploy.master.Master を開始し、/opt/Spark/spark-2.0.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master- にログを記録します。 1-s.out。

コマンド プロンプトを返します。spark-standalone doc に記載されているように、出力には URL がなく、入力するとlocalhost:8080サイトに到達できないことが示されます。マスターを再度実行しようとすると、既に実行中のプロセスであることが示されます。Java、Python、および Spark のすべてのパスを設定しました。何が間違っているのですか、それともスパーク マスター UI を起動するために他に何かすることはありますか? または、他のすべての Web ページが正常に読み込まれる場合でも、プロキシに何か問題がある可能性がありますか?

注: Linux OS と spark-2.0.2-bin-hadoop2.7 を使用しています。