問題タブ [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
829 参照

hadoop - 複数のジョブに同じ JavaSparkContext を使用して、spark ドライバーの初期化に時間を使用しないようにする

Google Dataproc で Spark ジョブを実行しようとしています。ただし、通常見られるように、Spark ドライバーの初期化は実行時間のかなりの部分を占めます。JavaSparkContext の同じインスタンスを使用して Google Dataproc で Spark の複数のジョブを実行するための良い方法を知りたいので、spark ドライバーの初期化によってすべてのジョブのパフォーマンスが失われることはありません。現在、私のコードは次のようになっています。

0 投票する
0 に答える
1076 参照

apache-spark-sql - Dataproc が Google クラウド ストレージの寄木細工のファイルを読み取れませんでした

Googleクラウドストレージに寄木細工のファイルがあり、以下のように読み込もうとします:

ただし、次の例外が発生しました。私が気づいたことの 1 つは、その例外で gs パスが異なることです: バケット名「eng_sandbox1」がありません。ありがとう!

0 投票する
1 に答える
269 参照

hadoop - Google Dataproc で Apache Spark ジョブの初期化時間を最小限に抑える最善の方法は何ですか?

REST サービスを使用して、Dataproc API クライアントを使用して Spark ジョブをトリガーしようとしています。ただし、dataproc クラスタ内の各ジョブは、Spark ドライバの初期化とアプリケーションの送信に 10~15 秒かかります。gs バケット内の JAR ファイルからトリガーされる Spark Java ジョブの初期化時間をなくす効果的な方法があるかどうか疑問に思っています。私が考えているいくつかの解決策は次のとおりです。

  1. すべての Spark ジョブに使用できる JavaSparkContext の単一インスタンスをプールする
  2. 単一のジョブを開始し、単一のジョブで Spark ベースの処理を実行する

より効果的な方法はありますか?Google Dataproc で上記の方法をどのように実装しますか?

0 投票する
1 に答える
1287 参照

apache-spark - Google Dataproc は Spark ログをディスク上のどこに保存しますか?

マスター ノード (Spark ドライバー プログラムをホストするマシン) に SSH で接続しているときに、Spark アプリによって生成されたライブ ログにコマンド ラインでアクセスしたいと考えています。、Dataproc ウェブ UI、および GCSを使用してそれらを表示gcloud dataproc jobs waitできますが、コマンドライン経由でライブ ログにアクセスできるようにしたいと考えgrepています。

ドライバー (およびエグゼキューター) で Spark によって生成されたログはどこにありますか?

0 投票する
1 に答える
3230 参照

c# - Google Cloud Dataproc でクラスタを作成するときに、リクエストの認証範囲 [403] が不十分でした

Google Cloud Platform では、DataProc API が有効になっています。この例では、GCS と Big クエリにアクセスするために使用するのと同じキーを使用して、新しいクラスターを作成しています。次の行でRequest had insufficient authentication scopesエラーが発生します。

私の完全なコード:

0 投票する
1 に答える
1069 参照

apache-spark - Google クラウド プラットフォームから Spark ジョブのファイルを読み取る

Googleクラウドプラットフォームでsparkを使用しています。どうやら filesystem からファイルを読み取っているようですgs://<bucket>/dir/fileが、ログ出力プロンプト

FileNotFoundException: `gs:/bucket/dir/file (そのようなファイルまたはディレクトリは存在しません)

行方不明/は明らかに問題です。どうすればこれを解決できますか?

エラーメッセージ

これは私のコードです:

0 投票する
0 に答える
1691 参照

python - Spark/Hadoop がリースの更新に失敗し、セーフ モードになり、シャットダウンした後、サーバーに接続できず、起動しない

Dataproc を使用して GCP 上にクラスタを作成しました。1 マスター、2 スレーブ。私のシステムは、rabbitmq を使用して 1 時間ごとにアイテムをキューに入れ、消費者はキューの各アイテムに対して pyspark を介してスパーク ジョブを実行します。注: pyspark を通常の python 環境にインポートし、そこから spark を使用できるように構成しました。

長時間実行した後、実際にはそれほど長くはありませんが、システムはリースを更新できないことを出力し、セーフモードに移行します

システムはしばらくの間実行を続け、最終的にシャットダウンします。

そのままサービスを再開してみます

そのように見える

しかし、spark/hadoop は再び開始されず、次のように表示されます。

サーバー(debian)を再起動すると、再び機能しますが、しばらくすると同じ問題が再び発生します。これを修正する方法を知っている人はいますか?NameNode により多くのリソースを与えることを検討しましたが、私の考えでは、これはシステムの再起動を妨げるべきではありませんよね? 誰にも洞察がありますか?

0 投票する
0 に答える
473 参照

hadoop - Dataproc への Oozie のインストール エラー

最初に、Google が提供する Dataproc 初期化スクリプト (ここ) を使用して Oozie を新しいクラスタにインストールしましたが、UI にアクセスしたり、コマンドラインでジョブを実行したりできないことに気付きました。

診断を行ってクラスターを削除し、初期化スクリプトを使用せずに新しいクラスターを再作成しました (記録としてはまったくありません)。次に、次のエラーを取得するために sudo apt-get install oozie を実行しました。

なぜこれが起こっているのか誰にも分かりますか?または可能な回避策はありますか?