“apache-spark-standalone”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

895 参照

apache-spark - スタンドアロンで動的リソース割り当てをスパークさせる

動的リソース割り当てに関して質問/問題があります。スタンドアロンクラスターマネージャーで spark 1.6.2 を使用しています。

2 つのコアを持つワーカーが 1 つあります。すべてのノードの spark-defaults.conf ファイルに次の引数を設定します。

多くのタスクを含むサンプルアプリケーションを実行します。ドライバーでポート 4040 を開き、上記の構成が存在することを確認できます。

私の問題は、私が何をしても、他のコアが利用可能であっても、アプリケーションが1つのコアしか取得できないことです。

これは正常ですか、それとも構成に問題がありますか?

私が取得したい動作は次のとおりです。同じスパーククラスターで作業している多くのユーザーがいます。クラッツァーの残りの部分が保留されていない限り、各アプリケーションが固定数のコアを取得することを望みます。この場合、新しいアプリケーションが到着するまで、実行中のアプリケーションがコアの合計量を取得することを望みます...

これのためにメソスに行かなければなりませんか？

apache-spark apache-spark-standalone

2016-10-27T08:11:19.017

0 投票する

1 に答える

822 参照

scala - FAIR は Spark スタンドアロンクラスターモードで使用できますか?

Spark スタンドアロンクラスターマネージャーを使用して 2 ノードクラスターを使用しています。Scala マルチスレッドで同じものを使用して複数のジョブをトリガーしています。私が見つけたのは、 FIFOの性質のためにscジョブが次々とスケジュールされているため、FAIRスケジューリングを使用しようとしたことです。

Job1 と Job2 はランチャークラスからトリガーされます。これらのプロパティを設定した後でも、ジョブはFIFOで処理されます。FAIRはSpark スタンドアロンクラスターモードで使用できますか?詳しく説明されているページはありますか? Job Scheduling で FAIR と Standalone についてあまり見つけられないようです。私はこのSOF の質問に

2016-10-27T15:14:37.363

0 投票する

1 に答える

832 参照

apache-spark - spark rest api /api/v1 はメソッドを許可しません

Spark スタンドアロンクラスターをデプロイしましたが、アプリケーション情報のために残りの API にアクセスしようとすると、. アクセスしようとしている URL はhttp://ip:4040/api/v1です。

残りの API ドキュメントへのリンク -> http://spark.apache.org/docs/latest/monitoring.html#rest-api

それは言う

メソッドは許可されていません

これは設定の問題か何かだと思います。

助けてくれてありがとう。

apache-spark apache-spark-standalone

2016-11-09T21:25:42.813

0 投票する

1 に答える

1316 参照

apache-spark - "--deploy-mode cluster" で実行されている Spark スタンドアロンクラスターの特定のスレーブでドライバーを強制的に実行する

2 つの EC2 インスタンス (m4.xlarge) を持つ小さな Spark クラスターを実行しています。

これまでのところ、1 つのノードで spark マスターを実行し、もう 1 つのノードで 1 つの spark スレーブ (4 コア、16g メモリ) を実行してから、spark (ストリーミング) アプリをクライアントデプロイモードでマスターにデプロイしました。設定の概要は次のとおりです。

--executor-memory 16g

--executor-cores 4

-- ドライバメモリ 8g

-- ドライバーコア 2

-- 展開モードのクライアント

これにより、4 つのコアと 16Gb のメモリで実行されている単一のスレーブ上に単一のエグゼキュータが作成されます。ドライバーは、マスターノードのクラスターの「外部」で実行されます (つまり、マスターによってリソースが割り当てられません)。

理想的には、監視オプションを利用できるように、クラスター展開モードを使用したいと考えています。マスターノードで 2 番目のスレーブを開始し、2 つのコアと 8g のメモリを割り当てました (マスターデーモン用のスペースを確保するために割り当てられたリソースを小さくしました)。

Spark ジョブをクラスターデプロイモードで実行すると (上記と同じ設定を使用しますが、--deploy-mode クラスターを使用します)。約 50% の時間で、ドライバーがマスターノード (2 コアと 8Gb の適切なリソースを持つ) で実行されているスレーブを介して実行され、元のスレーブノードに 4 のエグゼキューターを割り当てる自由を与えるという目的の展開が得られます。コア & 16Gb。ただし、残りの 50% の時間は、マスターが非マスタースレーブノードでドライバーを実行します。つまり、そのノードで 2 コアと 8Gb メモリを備えたドライバーを取得することになり、エグゼキューターを起動するのに十分なリソースを持つノードが残りません (これには 4 コアと 16Gb が必要です)。

Spark マスターがドライバーに特定のワーカー/スレーブを使用するように強制する方法はありますか? Spark が 2 つのスレーブノード (1 つは 2 コア、もう 1 つは 4 コア) があり、私のドライバーには 2 つのコアが必要であり、私のエグゼキューターには 4 つのコアが必要であることを知っているとすれば、適切な最適な配置を理想的にはうまくいくでしょうが、これはそうではありません。そのようです。

どんなアイデアや提案もありがたく受け取った！

ありがとう！

apache-spark apache-spark-standalone

2016-11-10T11:39:03.787

0 投票する

0 に答える

621 参照

azure - リモート Spark スタンドアロンエグゼキュータエラー

リモートサーバー (Microsoft azure) で Spark (2.0.1) スタンドアロンクラスターを実行しています。Spark アプリをこのクラスターに接続できますが、タスクが実行されずにスタックします (次の警告が表示されます WARN org.apache.spark.scheduler.TaskSchedulerImpl - Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources) 。

私が試したこと：

アプリのメモリ、CPU 要件がサーバー構成を超えないようにしました。
これらの変数を my に提供しましたspark-env.sh:SPARK_PUBLIC_DNS ,SPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOST
マスター/ワーカー/アプリケーションの webui をブラウザーで確認できます。
リモートサーバーですべてのポートを開きます（私のIPとVPN用）。
無効ufw。

私が知る限り、私のワーカーはマスターに中継することができません。エグゼキュータは、次の stderr で 120 秒後にタイムアウトします。

マスターに接続するために、vm のプライベート IPSPARK_DRIVER_HOST, SPARK_LOCAL_IP, SPARK_MASTER_HOSTとパブリック IPを使用しています。SPARK_PUBLIC_DNSマスターとワーカーは同じ vm で実行されています。そして、この正確なセットアップは ec2 インスタンスで機能しています。どんな助けでも大歓迎です。

更新:マシン内から通常どおり spark-shell を実行できます。問題はこれに似ているようですvm でポートを開いていますが、エグゼキューターはドライバーと対話できません。ドライバーをインスタンス/ラップトップのパブリック IP にバインドする方法はありますか?

azure apache-spark amazon-ec2 apache-spark-standalone

2016-11-19T18:41:42.230

0 投票する

0 に答える

998 参照

apache-spark - ローカルホスト: マスターの場合は 8080 - サイトに到達できません

これらは、spark-env.sh で行った次の構成です。

奴隷.sh:

その後、コマンドを実行しました：./sbin/start-master.sh

出力：

org.apache.spark.deploy.master.Master を開始し、/opt/Spark/spark-2.0.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master- にログを記録します。 1-s.out。

コマンドプロンプトを返します。spark-standalone doc に記載されているように、出力には URL がなく、入力するとlocalhost:8080サイトに到達できないことが示されます。マスターを再度実行しようとすると、既に実行中のプロセスであることが示されます。Java、Python、および Spark のすべてのパスを設定しました。何が間違っているのですか、それともスパークマスター UI を起動するために他に何かすることはありますか? または、他のすべての Web ページが正常に読み込まれる場合でも、プロキシに何か問題がある可能性がありますか?

注: Linux OS と spark-2.0.2-bin-hadoop2.7 を使用しています。

apache-spark apache-spark-standalone

2016-11-28T08:02:03.090

問題タブ [apache-spark-standalone]

apache-spark - スタンドアロンで動的リソース割り当てをスパークさせる

scala - FAIR は Spark スタンドアロン クラスター モードで使用できますか?

apache-spark - spark rest api /api/v1 はメソッドを許可しません

apache-spark - "--deploy-mode cluster" で実行されている Spark スタンドアロン クラスターの特定のスレーブでドライバーを強制的に実行する

azure - リモート Spark スタンドアロン エグゼキュータ エラー

apache-spark - ローカルホスト: マスターの場合は 8080 - サイトに到達できません

Reference

scala - FAIR は Spark スタンドアロンクラスターモードで使用できますか?

apache-spark - "--deploy-mode cluster" で実行されている Spark スタンドアロンクラスターの特定のスレーブでドライバーを強制的に実行する

azure - リモート Spark スタンドアロンエグゼキュータエラー