問題タブ [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
827 参照

scala - SSH 経由でインターネットにアクセスせずにリモート ノードで SBT を使用する

リモート マシンで Scala を使用してSparkプログラムを作成しようとしていますが、そのマシンにはインターネット アクセスがありません。Hadoop のビルド済みバージョンを使用しているため、コンパイル済みのサンプルを実行できます。

[user@host spark-0.7.2]$ ./run spark.examples.LocalPi

しかし、マシン上でsparkを参照するものはコンパイルできません:

通常、依存関係を処理するために SBT を使用しますが、マシンにはインターネット アクセスがなく、SSH を介したインターネットのトンネリングは不可能です。

インターネットにアクセスできないリモート マシンで SBT プロジェクトをコンパイルすることは可能ですか? または、Spark の依存関係を Scala コンパイラに手動でリンクするにはどうすればよいでしょうか。

0 投票する
2 に答える
9583 参照

cassandra - Cassandra の CQL と Spark/Shark クエリと Hive/Hadoop (DSE バージョン) の比較

CQL とインメモリ クエリ エンジン Spark/Shark の使用について、ご意見やご感想をお聞かせください。私の知る限り、CQL プロセッサは各ノードの Cassandra JVM 内で実行されています。Cassandra クラスターに接続された Shark/Spark クエリ プロセッサは、分離されたクラスターの外部で実行されます。また、Datastax には、Hadoop/Hive のデプロイを可能にする Cassandra の DSE バージョンがあります。問題は、どのユース ケースで、他のソリューションではなく特定のソリューションを選択するかということです。

0 投票する
1 に答える
4360 参照

scala - Spark 構成: SPARK_MEM と SPARK_WORKER_MEMORY

ではspark-env.sh、次の環境変数を構成できます。

これでスタンドアロン クラスタを起動すると、次のようになります。

Spark Master UI の Web ページを見ると、すべてのワーカーが 3GB の RAM のみで開始されていることがわかります。

ただし、次のように指定22gSPARK_WORKER_MEMORYましたspark-env.sh

私はこれにやや混乱しています。おそらく「ノード」と「ワーカー」の違いがよくわかりません。

誰かが 2 つのメモリ設定の違いと、私が間違ったことを説明できますか?

私はspark-0.7.0を使用しています。詳細な構成情報については、こちらも参照してください。

0 投票する
1 に答える
1884 参照

scala - Spark スタンドアロン モード: ワーカーが適切に停止しない

spark (0.7.0) でクラスター全体を停止する場合

すべてのワーカーが正しく停止されるわけではありません。より具体的には、クラスターを再起動する場合

私は得る:

host4 と host7 では、実際にまだ実行中の StandaloneExecutorBackend があります。

繰り返すだけ

残念ながら、ワーカーも停止しません。Spark は、ワーカーが停止しようとしていることを教えてくれます。

いいえspark.deploy.master.Master、やめません

でも、

そうではないと言います。誰かがどのようstop-all.shに適切に機能するか考えていますか? ありがとう。

0 投票する
1 に答える
1850 参照

scala - Spark スタンドアロン モード: 127.0.1.1 への接続:拒否した

次のドライバー プログラムを使用してスタンドアロン モードで Spark 0.7.2 を使用し、7 つのワーカーと 1 つの個別のマスターを使用して最大 90 GB (圧縮: 19 GB) のログデータを処理しています。

ShuffleMapTasksステージ 1 のすべてが完了したら:

ステージ 0 を送信します。

いくつかのシリアル化の後、印刷されます

この後、何も起こらず、topワーカーがすべてアイドル状態になったことも示唆しています。ワーカー マシンのログを見ると、それぞれで同じことが起こります。

次に、これらの「接続の開始」試行ごとに、各ワーカーで同じエラーをスローします (例として host27 のログを示し、エラーの最初の発生のみを示します)。

なぜこれが起こるのですか?ワーカー同士は問題なく通信できているようですが、唯一の問題は、自分自身にメッセージを送信したい場合に発生するようです。上記の例では、host27 は自分自身に 6 つのメッセージを送信しようとしますが、6 回失敗します。他のワーカーへのメッセージの送信は正常に機能します。誰かがアイデアを持っていますか?

編集:おそらく127.0を使用するsparkに関係しています。127.0 ではなく1 .1。0.1 ? /etc/hosts次のようになります。

0 投票する
1 に答える
2673 参照

scala - Spark スタンドアロン モード: HDFS 出力のレプリケーション ファクターを変更する

hdfs-site.xmlの場合、複製係数を 1 に設定しました。

ただし、結果を hdfs に書き込む場合:

結果は自動的に 3 倍に複製され、自分の複製係数が上書きされます。スペースを節約するために、出力の複製係数も 1 にしたいと思います。

Spark に HDFS にレプリケーション ファクター 1 を使用するように指示するにはどうすればよいですか?

0 投票する
4 に答える
15110 参照

scala - Spark スタンドアロン モード: HDFS に書き込まれた Spark 出力を圧縮する方法

私の他の質問に関連していますが、明確です:

RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。

で圧縮アルゴリズムを選択します

スパークでこれを行うにはどうすればよいですか?これも機能しますか?

編集:spark-0.7.2を使用