問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - SSH 経由でインターネットにアクセスせずにリモート ノードで SBT を使用する
リモート マシンで Scala を使用してSparkプログラムを作成しようとしていますが、そのマシンにはインターネット アクセスがありません。Hadoop のビルド済みバージョンを使用しているため、コンパイル済みのサンプルを実行できます。
[user@host spark-0.7.2]$ ./run spark.examples.LocalPi
しかし、マシン上でsparkを参照するものはコンパイルできません:
通常、依存関係を処理するために SBT を使用しますが、マシンにはインターネット アクセスがなく、SSH を介したインターネットのトンネリングは不可能です。
インターネットにアクセスできないリモート マシンで SBT プロジェクトをコンパイルすることは可能ですか? または、Spark の依存関係を Scala コンパイラに手動でリンクするにはどうすればよいでしょうか。
cassandra - Cassandra の CQL と Spark/Shark クエリと Hive/Hadoop (DSE バージョン) の比較
CQL とインメモリ クエリ エンジン Spark/Shark の使用について、ご意見やご感想をお聞かせください。私の知る限り、CQL プロセッサは各ノードの Cassandra JVM 内で実行されています。Cassandra クラスターに接続された Shark/Spark クエリ プロセッサは、分離されたクラスターの外部で実行されます。また、Datastax には、Hadoop/Hive のデプロイを可能にする Cassandra の DSE バージョンがあります。問題は、どのユース ケースで、他のソリューションではなく特定のソリューションを選択するかということです。
scala - Spark 構成: SPARK_MEM と SPARK_WORKER_MEMORY
ではspark-env.sh
、次の環境変数を構成できます。
これでスタンドアロン クラスタを起動すると、次のようになります。
Spark Master UI の Web ページを見ると、すべてのワーカーが 3GB の RAM のみで開始されていることがわかります。
ただし、次のように指定22g
しSPARK_WORKER_MEMORY
ましたspark-env.sh
私はこれにやや混乱しています。おそらく「ノード」と「ワーカー」の違いがよくわかりません。
誰かが 2 つのメモリ設定の違いと、私が間違ったことを説明できますか?
私はspark-0.7.0を使用しています。詳細な構成情報については、こちらも参照してください。
scala - Spark スタンドアロン モード: ワーカーが適切に停止しない
spark (0.7.0) でクラスター全体を停止する場合
すべてのワーカーが正しく停止されるわけではありません。より具体的には、クラスターを再起動する場合
私は得る:
host4 と host7 では、実際にまだ実行中の StandaloneExecutorBackend があります。
繰り返すだけ
残念ながら、ワーカーも停止しません。Spark は、ワーカーが停止しようとしていることを教えてくれます。
いいえspark.deploy.master.Master
、やめません
でも、
そうではないと言います。誰かがどのようstop-all.sh
に適切に機能するか考えていますか? ありがとう。
scala - Spark スタンドアロン モード: 127.0.1.1 への接続:拒否した
次のドライバー プログラムを使用してスタンドアロン モードで Spark 0.7.2 を使用し、7 つのワーカーと 1 つの個別のマスターを使用して最大 90 GB (圧縮: 19 GB) のログデータを処理しています。
ShuffleMapTasks
ステージ 1 のすべてが完了したら:
ステージ 0 を送信します。
いくつかのシリアル化の後、印刷されます
この後、何も起こらず、top
ワーカーがすべてアイドル状態になったことも示唆しています。ワーカー マシンのログを見ると、それぞれで同じことが起こります。
次に、これらの「接続の開始」試行ごとに、各ワーカーで同じエラーをスローします (例として host27 のログを示し、エラーの最初の発生のみを示します)。
なぜこれが起こるのですか?ワーカー同士は問題なく通信できているようですが、唯一の問題は、自分自身にメッセージを送信したい場合に発生するようです。上記の例では、host27 は自分自身に 6 つのメッセージを送信しようとしますが、6 回失敗します。他のワーカーへのメッセージの送信は正常に機能します。誰かがアイデアを持っていますか?
編集:おそらく127.0を使用するsparkに関係しています。127.0 ではなく1 .1。0.1 ?
/etc/hosts
次のようになります。
scala - Spark スタンドアロン モード: HDFS 出力のレプリケーション ファクターを変更する
私hdfs-site.xml
の場合、複製係数を 1 に設定しました。
ただし、結果を hdfs に書き込む場合:
結果は自動的に 3 倍に複製され、自分の複製係数が上書きされます。スペースを節約するために、出力の複製係数も 1 にしたいと思います。
Spark に HDFS にレプリケーション ファクター 1 を使用するように指示するにはどうすればよいですか?
scala - Spark スタンドアロン モード: HDFS に書き込まれた Spark 出力を圧縮する方法
私の他の質問に関連していますが、明確です:
RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。
で圧縮アルゴリズムを選択します
スパークでこれを行うにはどうすればよいですか?これも機能しますか?
編集:spark-0.7.2を使用