問題タブ [spark-notebook]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1625 参照

apache-spark - EMR ノートブック jupyter で spark.driver.maxResultSize を設定する

emr で Jupyter ノートブックを使用して、大量のデータを処理しています。データの処理中に次のエラーが表示されます。

spark config で maxResultsSize を更新する必要があるようです。jupyter ノートブックから spark maxResultsSize を設定するにはどうすればよいですか。

すでにこの投稿をチェックしました: Spark 1.4はmaxResultSizeメモリを増やします

また、emr ノートブックでは、spark コンテキストが既に指定されています。spark コンテキストを編集して maxResultsSize を増やす方法はありますか

どんなリードも非常に役に立ちます。

ありがとう

0 投票する
1 に答える
317 参照

pandas - Spark の一部のノートの動作が非常に遅いのはなぜですか? 同じ状況で複数回実行すると実行時間が異なるのはなぜですか?

私の質問は、ツェッペリンでの pyspark コードの実行時間についてです。

いくつかのメモがあり、その中にいくつかの SQL を使用しています。私のメモの 1 つで、.topandas()関数を使用してデータフレームをパンダに変換します。私のデータのサイズは約 600 メガバイトです。

私の問題は、時間がかかることです。

たとえば、次のようにサンプリングを使用する場合:

それは正しく、許容できる時間内に機能します。

もう 1 つの奇妙な点は、このメモを数回実行すると、高速に動作することもあれば、低速に動作することもあります。たとえば、pyspark インタープリターを再起動した後の最初の実行では、より高速に動作します。

ツェッペリンを安定した状態で使用するにはどうすればよいですか? そして、許容時間内にスパークコードを実行するのに効果的なパラメーターはどれですか?

0 投票する
1 に答える
353 参照

apache-zeppelin - Zeppelin のインタープリターをインストールする

zeppelin apache のインタープリターをカスタム インストールする必要があります。すべてのインタープリターではなく、md、shell、python (デフォルト)、jdbc、spark (デフォルト) のみが必要です。私はいくつかの方法を実行しますが、失敗しました:

  1. コマンドを使用してオンラインでインストールする

    ./bin/install-interpreter.sh --name md,shell,jdbc

しかし、私は次のようなエラーを受け取りました:

私はそれを修正するために次のように設定しました: zeppelin-site.xml

そして zeppelin-env.sh で

ここに画像の説明を入力

http を https に変更しましたが、効果がありません。

  1. オフラインでインストール mvnrepository から jar ファイルをダウンロードして実行します

    bin/install-interpreter.sh --name md --artifact /tmp/zeppelin-jar/zeppelin-markdown-0.8.2.jar &&
    bin/install-interpreter.sh --name shell --artifact /tmp/zeppelin- jar/zeppelin-shell-0.8.2.jar &&
    bin/install-interpreter.sh --name jdbc --artifact /tmp/zeppelin-jar/zeppelin-jdbc-0.8.2.jar

ただし、パッケージは、jar をダウンロードする必要がある他の多くの依存関係に関連しています。例:

インタープリターをインストールするには?コマンドを介してオンラインでインストールできると予想しました。しかし、ネットワークのためエラーのようです。会社のPCからインストールしました

皆様、本当にありがとうございました