問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 複数のジョブに同じ JavaSparkContext を使用して、spark ドライバーの初期化に時間を使用しないようにする
Google Dataproc で Spark ジョブを実行しようとしています。ただし、通常見られるように、Spark ドライバーの初期化は実行時間のかなりの部分を占めます。JavaSparkContext の同じインスタンスを使用して Google Dataproc で Spark の複数のジョブを実行するための良い方法を知りたいので、spark ドライバーの初期化によってすべてのジョブのパフォーマンスが失われることはありません。現在、私のコードは次のようになっています。
apache-spark-sql - Dataproc が Google クラウド ストレージの寄木細工のファイルを読み取れませんでした
Googleクラウドストレージに寄木細工のファイルがあり、以下のように読み込もうとします:
ただし、次の例外が発生しました。私が気づいたことの 1 つは、その例外で gs パスが異なることです: バケット名「eng_sandbox1」がありません。ありがとう!
hadoop - Google Dataproc で Apache Spark ジョブの初期化時間を最小限に抑える最善の方法は何ですか?
REST サービスを使用して、Dataproc API クライアントを使用して Spark ジョブをトリガーしようとしています。ただし、dataproc クラスタ内の各ジョブは、Spark ドライバの初期化とアプリケーションの送信に 10~15 秒かかります。gs バケット内の JAR ファイルからトリガーされる Spark Java ジョブの初期化時間をなくす効果的な方法があるかどうか疑問に思っています。私が考えているいくつかの解決策は次のとおりです。
- すべての Spark ジョブに使用できる JavaSparkContext の単一インスタンスをプールする
- 単一のジョブを開始し、単一のジョブで Spark ベースの処理を実行する
より効果的な方法はありますか?Google Dataproc で上記の方法をどのように実装しますか?
apache-spark - Google Dataproc は Spark ログをディスク上のどこに保存しますか?
マスター ノード (Spark ドライバー プログラムをホストするマシン) に SSH で接続しているときに、Spark アプリによって生成されたライブ ログにコマンド ラインでアクセスしたいと考えています。、Dataproc ウェブ UI、および GCSを使用してそれらを表示gcloud dataproc jobs wait
できますが、コマンドライン経由でライブ ログにアクセスできるようにしたいと考えgrep
ています。
ドライバー (およびエグゼキューター) で Spark によって生成されたログはどこにありますか?
c# - Google Cloud Dataproc でクラスタを作成するときに、リクエストの認証範囲 [403] が不十分でした
Google Cloud Platform では、DataProc API が有効になっています。この例では、GCS と Big クエリにアクセスするために使用するのと同じキーを使用して、新しいクラスターを作成しています。次の行でRequest had insufficient authentication scopes
エラーが発生します。
私の完全なコード:
apache-spark - Google クラウド プラットフォームから Spark ジョブのファイルを読み取る
Googleクラウドプラットフォームでsparkを使用しています。どうやら filesystem からファイルを読み取っているようですgs://<bucket>/dir/file
が、ログ出力プロンプト
FileNotFoundException: `gs:/bucket/dir/file (そのようなファイルまたはディレクトリは存在しません)
行方不明/
は明らかに問題です。どうすればこれを解決できますか?
これは私のコードです:
python - Spark/Hadoop がリースの更新に失敗し、セーフ モードになり、シャットダウンした後、サーバーに接続できず、起動しない
Dataproc を使用して GCP 上にクラスタを作成しました。1 マスター、2 スレーブ。私のシステムは、rabbitmq を使用して 1 時間ごとにアイテムをキューに入れ、消費者はキューの各アイテムに対して pyspark を介してスパーク ジョブを実行します。注: pyspark を通常の python 環境にインポートし、そこから spark を使用できるように構成しました。
長時間実行した後、実際にはそれほど長くはありませんが、システムはリースを更新できないことを出力し、セーフモードに移行します
システムはしばらくの間実行を続け、最終的にシャットダウンします。
そのままサービスを再開してみます
そのように見える
しかし、spark/hadoop は再び開始されず、次のように表示されます。
サーバー(debian)を再起動すると、再び機能しますが、しばらくすると同じ問題が再び発生します。これを修正する方法を知っている人はいますか?NameNode により多くのリソースを与えることを検討しましたが、私の考えでは、これはシステムの再起動を妨げるべきではありませんよね? 誰にも洞察がありますか?
hadoop - Dataproc への Oozie のインストール エラー
最初に、Google が提供する Dataproc 初期化スクリプト (ここ) を使用して Oozie を新しいクラスタにインストールしましたが、UI にアクセスしたり、コマンドラインでジョブを実行したりできないことに気付きました。
診断を行ってクラスターを削除し、初期化スクリプトを使用せずに新しいクラスターを再作成しました (記録としてはまったくありません)。次に、次のエラーを取得するために sudo apt-get install oozie を実行しました。
なぜこれが起こっているのか誰にも分かりますか?または可能な回避策はありますか?