問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Dataproc クラスタの一時停止 - Google Compute Engine
spark-shell または spark-submit ジョブをアクティブに実行していないときに課金されないように、Dataproc クラスタを一時停止する方法はありますか? このリンクのクラスタ管理手順: https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/
クラスターを破棄する方法のみを示していますが、たとえば、spark cassandra コネクタ API をインストールしました。毎回インストールする必要があるイメージを作成するための唯一の代替手段はありますか?
sparkr - Dataproc(Spark 1.5.x)で SparkR が機能しない
Cloud Dataproc クラスタ (バージョン 0.2) で SparkR を使用しようとすると、次のようなエラーが発生します。
SparkR を使用できるようにするには、どうすればこれを修正できますか?
apache-spark - Dataproc クラスタでの Spark-Shell または PySpark-Shell セッションのモニタリング
Google Cloud Logging の Dataproc Spark ジョブからの出力とともに、Dataproc クラスタからSparkジョブ ドライバの出力とHadoop ジョブにアクセスするための回答があることを理解しています。これらに感謝します。
ただし、インタラクティブやセッションなどの不完全なSpark アプリケーションのログを表示することにも関心があります。pyspark-shell
spark-shell
- 同じ Web インターフェイスを使用して、場合によっては
- 生のセッション出力 (ローカル fs または hdfs のログ ファイル?) へのアクセス
Spark シェル セッション中に、セッションを不完全なアプリケーションとして表示することはできますが、REPL でコマンドを実行している場合、UI はJobs、Stages、およびTasksタブにそのような情報を提供しません。これは次のように簡単に複製できます。
(上記のように) Spark セッションを不完全なアプリケーションとして見ることができ、次のような基本的な Spark ジョブを (collect
アクションを使用して) 実行できます。
ただし、これにより、Jobs、Stages、またはStorageタブのいずれにも情報が表示されません: Spark ジョブ履歴 UI 画面グラブ (空白) を参照してください。
ただし、Dataproc API を介してジョブを送信する場合、これらのタブには予想されるすべてのジョブ履歴が表示されます。
Spark シェル セッションからそのような出力/ジョブ履歴にアクセスできる場所に関するヒントはありますか? よろしくお願いします。:)
apache-spark - Spark 1.6.0 への Google Cloud Dataproc の移行
Google Dataproc は、Spark 1.6.0 の使用をすぐに開始しますか? 次のコマンドを使用してクラスターを作成しています。
デフォルトでは Spark 1.5.2 を使用します。
ありがとう。
python - pyspark でジョブを送信する際に、--files 引数を使用して静的ファイルのアップロードにアクセスするにはどうすればよいですか?
たとえば、次のフォルダーがあります。
ジョブは次のように Spark クラスターに送信されます。
gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"
で、test.py
アップロードした静的ファイルにアクセスしたい。
しかし、次の例外が発生しました:
アップロードしたファイルにアクセスするにはどうすればよいですか?
apache-spark - Apache Spark SQL の Google ストレージ内のデータへのアクセス
クラウド ストレージに約 30 Gb 相当のデータがあり、Dataproc クラスタから Apache Hive を使用してクエリを実行したいと考えています。このデータにアクセスするための最善の戦略は何ですか? gsutilを介してデータをマスターにコピーし、そこからアクセスするのが最善の方法ですか、それともクラウド ストレージで直接アクセスできますか? 後者の場合、Spark CLI でその場所を指定するにはどうすればよいですか? 指定できますか
私が走るとき
?
apache-spark - PySpark の exec sh
PySpark のジョブで .py ファイルからロードする .sh ファイルを実行しようとしていますが、常に .sh ファイルが見つからないというメッセージが表示されます
これは私のコードです:
test.py:
そして私の gcloud コマンド:
test.py ファイルは適切にロードされていますが、システムが check.sh ファイルを見つけることができません。
os.system("sh home/myuser/check.sh")
私も同じ結果を試しました
これは簡単にできるはずだと思います...アイデア?