“apache-spark-standalone”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

708 参照

apache-spark - 実際に Apache Spark スタンドアロンクラスターに設定できるコアの数はいくつですか?

次の仕様の 1 台のマシンに Apache Spark 1.6.1 スタンドアロンクラスターを設定しています。

CPU: Core i7-4790 (コア数: 4、スレッド数: 8)
メモリ: 16GB

conf/spark-env.sh で次の設定を使用しています

マシンには 4 コアのプロセッサが搭載されているため、可能な構成は次のようになると考えました。

だから私が考えたのは：

メモリは、ワーカーインスタンスの数の間で分割する必要があります。
ワーカーコアの数はワーカーインスタンスごとに乗算されるため、8 つのコアがないため、4 つのワーカーインスタンスと 2 つのワーカーコアを持つことはできません。

問題は、構成をテストして次のように設定したことです。

そして、エラーが発生しました。さらに、Apache Web UI では「40 コア」と表示されます。何が起こっている？その場合、実際にいくつのワーカーコアとワーカーインスタンスを使用できますか?

前もって感謝します。

2016-06-04T14:29:08.193

0 投票する

1 に答える

1305 参照

apache-spark - すべてのノードが Spark スタンドアロンクラスターで使用されているわけではありません

2 つの仮想マシンで Spark スタンドアロンクラスターを作成しました。
最初の VM (8 コア、64 GB メモリ) では、コマンドを使用して手動でマスターを起動しました bin/spark-class org.apache.spark.deploy.master.Master。
2 番目の VM (8 コア、64 GB メモリ) では、を使用して手動でスレーブを起動し
bin/spark-class org.apache.spark.deploy.worker.Worker spark://<hostname of master>:7077ました。
次に、最初の VM で、上記のスレーブコマンドを使用してスレーブも起動しました。下の写真では、ワーカーとマスターの両方が開始され、ALIVE になっていることがわかります。

しかし、Spark アプリケーションを実行すると、2 番目の VM のワーカーのみが実行されます ( worker-20160613102937-10.0.37.150-47668)。1 番目の VM ( worker-20160613103042-10.0.37.142-52601) のワーカーは実行されません。下の写真を参照してください

Spark スタンドアロンクラスター UI

Spark アプリケーションで両方のワーカーを使用する必要があります。これはどのように行うことができますか？

編集: VM 1st のワーカーに対応するエグゼキューターが失敗したエグゼキューターの概要のこの写真を参照してください。

stdoutまたはをクリックするとstderr、のエラーが表示されますinvalid log directory。下の写真を参照してください

apache-spark apache-spark-standalone

2016-06-13T06:31:42.277

0 投票する

1 に答える

65 参照

apache-spark - Spache Spark でパーティションを RAM にロードするのは誰ですか?

どこにも答えを見つけることができなかったというこの質問があります。

次の行を使用して、PySpark アプリケーション内にデータをロードしています。

私のクラスター構成は次のとおりです。

3 つのノードを持つ Spark クラスターを使用しています。1 つのノードはマスターの起動に使用され、他の 2 つのノードはそれぞれ 1 つのワーカーを実行しています。
スクリプトを使用して、クラスタの外部からログインノードにアプリケーションを送信します。
このスクリプトは、クラスター展開モードで Spark アプリケーションを送信します。この場合、使用している 3 つのノードのいずれかでドライバーを実行します。
入力 CSV ファイルは、グローバルに表示される一時ファイルシステム (Lustre) に保存されます。

Apache Spark Standalone では、パーティションを RAM にロードするプロセスはどのようになっていますか?

各エグゼキューターがドライバーのノード RAM にアクセスし、そこからパーティションを独自の RAM にロードするということですか? (ストレージ --> ドライバの RAM --> エグゼキュータの RAM)
各エグゼキュータがストレージにアクセスし、独自の RAM にロードするということですか? (ストレージ --> エグゼキュータの RAM)

これらのどれでもないのですが、ここで何か不足していますか? このプロセスを自分で確認するにはどうすればよいですか (監視ツール、UNIX コマンド、Spark のどこか)。

これについて深く掘り下げることができるコメントやリソースは非常に役立ちます。前もって感謝します。

apache-spark apache-spark-standalone

2016-07-20T20:57:11.233

0 投票する

0 に答える

691 参照

hadoop - Apache Spark: 履歴サーバー (ロギング) + 非スーパーユーザーアクセス (HDFS)

リモートサーバーで動作中の HDFS と実行中の Spark フレームワークを使用しています。私は SparkR アプリケーションを実行しており、完成した UI のログも見たいと思っています。Windows: Apache Spark History Server Configのすべての手順に従い、サーバーで History Server を起動できました。

ただし、スーパーユーザー (Hadoop の名前ノードを開始した人) と Spark プロセスを開始した人がリモートで Spark アプリケーションを起動した場合にのみ、ログは HDFS パスで正常に行われ、Spark の履歴 Web UI を表示できます。同じように。

同じアプリケーションを自分のユーザー ID から (リモートで) 実行すると、ポート 18080 でヒストリーサーバーが稼働中であることが示されますが、アプリケーションのログは記録されません。

HDFS のフォルダーへの読み取り、書き込み、および実行アクセス権が与えられています。

spark-defaults.conf ファイルは次のようになります。

どこかでいくつかのアクセス許可または構成設定を見逃していますか (Spark? HDFS)?

ここから先に進むための指針/ヒントをいただければ幸いです。

hadoop apache-spark hdfs apache-spark-sql apache-spark-standalone

2016-07-25T07:58:24.767

0 投票する

1 に答える

333 参照

apache-spark - Spark クラスターのワーカーノードでのオブジェクトの早期初期化

Drools と Spark をスタンドアロンクラスターで使用しています。起動時、つまりマップ削減タスクの前に、すべてのワーカーノードにナレッジセッションをロードしたいと考えています。Statefull セッションをドライバーからスレーブノードに渡そうとしましたが、うまくいきません。このため、ナレッジビルダーにルールを追加するだけで、最初のジョブに約 900 ミリ秒かかります。

apache-spark drools apache-spark-standalone

2016-08-01T11:06:38.030

問題タブ [apache-spark-standalone]

apache-spark - 実際に Apache Spark スタンドアロン クラスターに設定できるコアの数はいくつですか?

apache-spark - すべてのノードが Spark スタンドアロン クラスターで使用されているわけではありません

apache-spark - Spache Spark でパーティションを RAM にロードするのは誰ですか?

hadoop - Apache Spark: 履歴サーバー (ロギング) + 非スーパーユーザー アクセス (HDFS)

apache-spark - Spark クラスターのワーカー ノードでのオブジェクトの早期初期化

Reference

apache-spark - 実際に Apache Spark スタンドアロンクラスターに設定できるコアの数はいくつですか?

apache-spark - すべてのノードが Spark スタンドアロンクラスターで使用されているわけではありません

hadoop - Apache Spark: 履歴サーバー (ロギング) + 非スーパーユーザーアクセス (HDFS)

apache-spark - Spark クラスターのワーカーノードでのオブジェクトの早期初期化