問題タブ [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
698 参照

apache-spark-1.5 - spark-submit コマンドを使用して結果を取得した後、spark ドライバーが停止しました

spark-1.5.1 スタンドアロン モードをインストールし、spark-submit コマンドを使用して結果を取得しました。実際には、spark hidden rest API を使用して結果を取得したいと考えています。spark-driver が停止すると、rest API を使用して結果を取得できません。

spark-submit を使用して掘り下げた後、出力を取得した後、すべての spark-context,driver が停止していることがわかりました。

誰でも助けてください

コンソールの結果は次のとおりです:-

結果 - a の行: 60、b の行: 29 15/11/01 08:46:08 INFO SparkContext: Invoking stop() from shutdown hook 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler が停止しました{ /metrics/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/stages/stage/kill,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler{/api を停止しました,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/static,null} 15/11/01 08 :46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/executors/threadDump/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/executors/threadDump,null} 15/11/01 08:46 :08 INFO ContextHandler: oejs を停止しましたServletContextHandler{/executors/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/executors,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/environment/json ,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/environment,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/storage/rdd/json,null} 15 /11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/storage/rdd,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/storage/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/storage,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/stages/pool/json,null} 15/11/01 08:46: 08 INFO ContextHandler:oejsServletContextHandler を停止しました{/stages/pool,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/stages/stage/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/stages/stage,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/stages/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler{/stages を停止しました, null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/jobs/job/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/jobs/job,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/jobs/json,null} 15/11/01 08:46:08 INFO ContextHandler: oejsServletContextHandler を停止しました{/jobs,null} 15/11/01 08 :46:08 INFO SparkUI:で Spark Web UI を停止しましたhttp://182.95.208.242:4040 15/11/01 08:46:08 情報 DAGScheduler: DAGScheduler を停止しています 15/11/01 08:46:08 情報 SparkDeploySchedulerBackend: すべての実行プログラムをシャットダウンしていますdown 15/11/01 08:46:09 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint が停止しました! 15/11/01 08:46:09 INFO MemoryStore: MemoryStore がクリアされました 15/11/01 08:46:09 INFO BlockManager: BlockManager が停止しました 15/11/01 08:46:09 INFO BlockManagerMaster: BlockManagerMaster が停止しました 15/11/01 08:46:09 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator が停止しました! 15/11/01 08:46:09 INFO SparkContext: SparkContext が正常に停止しました 15/11/01 08:46:09 INFO ShutdownHookManager: シャットダウン フックが呼び出されました 15/11/01 08:46:09 INFO ShutdownHookManager: ディレクトリ /tmp/spark-a2d4622c-d3c0-447b-aa73-21a3b6af1539 15/11/01 08:46:09 INFO RemoteActorRefProvider$RemotingTerminator を削除しています: リモート デーモンをシャットダウンしています。15/11/01 08:46:09 INFO RemoteActorRefProvider$RemotingTerminator: リモート デーモンがシャットダウンしました。リモートトランスポートのフラッシュを続行します。ipieawb1@master:~/spark-1.5.1/bin$

私は単純なコードを実行しようとしています。

public class SimpleApp { public static void main(String[] args) throws InterruptedException {

} }

0 投票する
1 に答える
761 参照

apache-spark - Apache Spark データフレームの createJDBCTable 例外

save to JDBCに関連して、テキスト ファイルをインポートし、レポート ツールでインポートするために Hive JDBC ファイルに保存しようとしています。

spark-1.5.1-bin-hadoop2.6 (マスター + 1 スレーブ)、JDBC thrift サーバー、およびビーライン クライアントを実行しています。それらはすべて相互に接続して通信しているように見えます。私が理解していることから、Hive はこのリリースの datanucleus jar に含まれています。Hive ファイルを保持するようにディレクトリを構成しましたが、conf/hive-config.xml がありません。

簡単な入力 CSV ファイル:

ユーザーテーブルは、ビーラインクライアントで事前に作成されています

マスター上の scala REPL セッションの場合:

また

また

スロー

私が間違っているアイデアはありますか?このバージョンでは、実際に DataFrame から JDBC ファイルを書き込むことができますか?

助けてくれてありがとう!

ジョン

0 投票する
0 に答える
234 参照

apache-spark - Apache Spark で、あるパーティションから別のパーティションに部分データをコピーする

キーに基づいてデータのパーティション分割を開始するユース ケースがあります。キーに属するすべてのデータは、1 つのパーティションに残ります。例えば

キー 1 -> パーティション 1 キー 2 -> パーティション 2

しばらくすると、key1 と key2 をマージする必要があるかもしれません。したがって、すべてのデータを key2 から key1 に、つまり partition2 から partition1 に転送したいだけです。Apache Sparkで可能ですか?費用がかかるため、すべてを再分割したくありません。

0 投票する
2 に答える
1021 参照

mongodb - spark-submit を介して追加の jar を Spark に渡す

私はMongoDBでSparkを使用しているため、mongo-hadoopドライバーに依存しています。元の質問hereに入力したおかげで、うまくいきました。

Spark ジョブは実行中ですが、理解できない警告が表示されます。このコマンドを実行すると

動作しますが、次の警告メッセージが表示されます

警告: ローカル jar /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo- hadoop-spark-1.5.0-SNAPSHOT.jar が存在しないため、スキップします。

これを機能させようとしたときに、ジョブを送信するときにこれらのパスを省略した場合、ジョブはまったく実行されませんでした。ただし、これらのパスを省略すると、実行されます

誰かがここで何が起こっているのか説明してもらえますか? ここで同じ警告を参照して同様の質問を調べ、ドキュメントを検索しました。

オプションを一度設定すると、環境変数などとして保存されますか? 私はそれが機能することをうれしく思いますが、他の理由ではなく、時々理由を完全に理解していないことに注意してください.

0 投票する
1 に答える
1545 参照

apache-spark - ツェッペリンとスパーク 1.5.2 スタンドアロン クラスタ エラー

Zeppelin 0.5.5 バイナリを redhat 6.3 インスタンスにダウンロードしました。また、spark 1.5.2 を正常にビルドしました。ここで、ツェッペリンに付属のコンパイル済みバージョンではなく、そのスパーク バージョンをツェッペリンに使用させたいと考えています。

そのために、 conf/ を編集して、コメントを外した次の行だけを含めました。

また、ツェッペリン GUI を編集して、マスター セットを作成しました。

次に、再起動を押して、チュートリアルをもう一度実行しようとしました。

org.apache.thrift.transport.TTransportException は org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) で、org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) は org. org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) の apache.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol. java:219) で org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) で org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_interpret(RemoteInterpreterService.java:220) で org.apache.zeppelin org.apache.zeppelin.interpreter.remote.RemoteInterpreter.org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) で (RemoteInterpreter.java:211) org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) で org.apache .zeppelin.scheduler.Job.run(Job.java:170) at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) at java.util.concurrent.Executors$RunnableAdapter.call(Executors) .java:471) で java.util.concurrent.FutureTask.run(FutureTask.java:262) で java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) で java.util.concurrent.ScheduledThreadPoolExecutor java.util.concurrent の java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) で $ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:292)。java.lang.Thread.run(Thread.java:745) の ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

また、やっているだけで

収量:

java.net.ConnectException: java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) の java.net.AbstractPlainSocketImpl.socketConnect(Native Method) で接続が拒否されました java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200) org.apache. thrift.transport.TSocket.open(TSocket.java:182) で org.apache.zeppelin.interpreter.remote.ClientFactory.create(ClientFactory.java:51) で org.apache.zeppelin.interpreter.remote.ClientFactory.create( org.apache.commons.pool2.impl の org.apache.commons.pool2.BasePooledObjectFactory.makeObject(BasePooledObjectFactory.java:60) の ClientFactory.java:37)。org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:435) の GenericObjectPool.create(GenericObjectPool.java:861) org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java: 363) org.apache.zeppelin.interpreter.remote.RemoteInterpreterProcess.getClient(RemoteInterpreterProcess.java:139) で org.apache.zeppelin.interpreter.remote.RemoteInterpreter.interpret(RemoteInterpreter.java:192) で org.apache.zeppelin .interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:207) at org.apache.zeppelin.scheduler.Job.run(Job.java:170) ) org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:304) で java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:178) で java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask. run(ScheduledThreadPoolExecutor.java:292) で java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) で java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) で java.lang.Thread .run(Thread.java:745) 0 秒かかりました。0 秒かかりました。0 秒かかりました。

私が間違っていることのアイデアはありますか?

0 投票する
1 に答える
690 参照

apache-spark - spark.shuffle.spill を false に設定しましたが、spark 1.5.0 ではまだこぼれが発生しています。

spark.shuffle.spill を false に設定しましたが、executor ログを確認したところ、spark 1.5.0 でまだスピルが発生しています。spark github リポジトリを検索したところ、1.6.0 ではこの構成パラメーターを無視し、必要に応じて流出し続けることがわかりました。しかし、私は 1.5.0 を使用しており、以前のバージョンで既に有効になっているかどうかはわかりません。

0 投票する
2 に答える
3473 参照

apache-spark - マスターとワーカーを同じノードに配置できますか?

3 ノード Spark スタンドアロン クラスターがあり、マスター ノードにもワーカーがあります。アプリをクラスターに送信すると、他の 2 つのワーカーが実行を開始しますが、マスター ノードのワーカーのステータスは LOADING のままで、最終的に他のマシンの 1 つで別のワーカーが起動されます。

ワーカーとマスターが同じノードにあることが問題ですか? はいの場合、この問題を解決する方法はありますか、それともワーカーとマスターを同じノードに置くべきではありませんか?

PSマシンにはそれぞれ8つのコアがあり、ワーカーはRAMのすべてではなく7つを使用するように設定されています