“apache-spark”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

827 参照

scala - SSH 経由でインターネットにアクセスせずにリモートノードで SBT を使用する

リモートマシンで Scala を使用してSparkプログラムを作成しようとしていますが、そのマシンにはインターネットアクセスがありません。Hadoop のビルド済みバージョンを使用しているため、コンパイル済みのサンプルを実行できます。

[user@host spark-0.7.2]$ ./run spark.examples.LocalPi

しかし、マシン上でsparkを参照するものはコンパイルできません:

通常、依存関係を処理するために SBT を使用しますが、マシンにはインターネットアクセスがなく、SSH を介したインターネットのトンネリングは不可能です。

インターネットにアクセスできないリモートマシンで SBT プロジェクトをコンパイルすることは可能ですか? または、Spark の依存関係を Scala コンパイラに手動でリンクするにはどうすればよいでしょうか。

2013-06-11T13:58:25.580

0 投票する

2 に答える

9583 参照

cassandra - Cassandra の CQL と Spark/Shark クエリと Hive/Hadoop (DSE バージョン) の比較

CQL とインメモリクエリエンジン Spark/Shark の使用について、ご意見やご感想をお聞かせください。私の知る限り、CQL プロセッサは各ノードの Cassandra JVM 内で実行されています。Cassandra クラスターに接続された Shark/Spark クエリプロセッサは、分離されたクラスターの外部で実行されます。また、Datastax には、Hadoop/Hive のデプロイを可能にする Cassandra の DSE バージョンがあります。問題は、どのユースケースで、他のソリューションではなく特定のソリューションを選択するかということです。

cassandra hive cql apache-spark shark-sql

2013-06-14T17:18:44.430

0 投票する

1 に答える

4360 参照

scala - Spark 構成: SPARK_MEM と SPARK_WORKER_MEMORY

ではspark-env.sh、次の環境変数を構成できます。

これでスタンドアロンクラスタを起動すると、次のようになります。

Spark Master UI の Web ページを見ると、すべてのワーカーが 3GB の RAM のみで開始されていることがわかります。

ただし、次のように指定22gしSPARK_WORKER_MEMORYましたspark-env.sh

私はこれにやや混乱しています。おそらく「ノード」と「ワーカー」の違いがよくわかりません。

誰かが 2 つのメモリ設定の違いと、私が間違ったことを説明できますか?

私はspark-0.7.0を使用しています。詳細な構成情報については、こちらも参照してください。

scala mapreduce apache-spark

2013-06-18T14:35:36.470

0 投票する

1 に答える

1884 参照

scala - Spark スタンドアロンモード: ワーカーが適切に停止しない

spark (0.7.0) でクラスター全体を停止する場合

すべてのワーカーが正しく停止されるわけではありません。より具体的には、クラスターを再起動する場合

私は得る：

host4 と host7 では、実際にまだ実行中の StandaloneExecutorBackend があります。

繰り返すだけ

残念ながら、ワーカーも停止しません。Spark は、ワーカーが停止しようとしていることを教えてくれます。

いいえspark.deploy.master.Master、やめません

でも、

そうではないと言います。誰かがどのようstop-all.shに適切に機能するか考えていますか? ありがとう。

scala mapreduce apache-spark

2013-06-18T14:50:53.113

0 投票する

1 に答える

1850 参照

scala - Spark スタンドアロンモード: 127.0.1.1 への接続:拒否した

次のドライバープログラムを使用してスタンドアロンモードで Spark 0.7.2 を使用し、7 つのワーカーと 1 つの個別のマスターを使用して最大 90 GB (圧縮: 19 GB) のログデータを処理しています。

ShuffleMapTasksステージ 1 のすべてが完了したら:

ステージ 0 を送信します。

いくつかのシリアル化の後、印刷されます

この後、何も起こらず、topワーカーがすべてアイドル状態になったことも示唆しています。ワーカーマシンのログを見ると、それぞれで同じことが起こります。

次に、これらの「接続の開始」試行ごとに、各ワーカーで同じエラーをスローします (例として host27 のログを示し、エラーの最初の発生のみを示します)。

なぜこれが起こるのですか？ワーカー同士は問題なく通信できているようですが、唯一の問題は、自分自身にメッセージを送信したい場合に発生するようです。上記の例では、host27 は自分自身に 6 つのメッセージを送信しようとしますが、6 回失敗します。他のワーカーへのメッセージの送信は正常に機能します。誰かがアイデアを持っていますか？

編集：おそらく127.0を使用するsparkに関係しています。127.0 ではなく1 .1。0.1 ? /etc/hosts次のようになります。

scala mapreduce apache-spark

2013-06-21T06:03:58.600

0 投票する

1 に答える

2673 参照

scala - Spark スタンドアロンモード: HDFS 出力のレプリケーションファクターを変更する

私hdfs-site.xmlの場合、複製係数を 1 に設定しました。

ただし、結果を hdfs に書き込む場合:

結果は自動的に 3 倍に複製され、自分の複製係数が上書きされます。スペースを節約するために、出力の複製係数も 1 にしたいと思います。

Spark に HDFS にレプリケーションファクター 1 を使用するように指示するにはどうすればよいですか?

scala hdfs apache-spark

2013-06-21T08:51:37.997

0 投票する

4 に答える

15110 参照

scala - Spark スタンドアロンモード: HDFS に書き込まれた Spark 出力を圧縮する方法

私の他の質問に関連していますが、明確です：

RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。

で圧縮アルゴリズムを選択します

スパークでこれを行うにはどうすればよいですか？これも機能しますか？

編集：spark-0.7.2を使用

scala compression hdfs apache-spark

2013-06-21T17:37:00.367

問題タブ [apache-spark]

Reference