問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Google Dataproc ジョブはキャンセル、停止、または終了しません
Google Dataproc を数週間使用していますが、使い始めてからジョブのキャンセルと停止に問題がありました。
クラスターのセットアップで作成されたもの以外に、ジョブを追跡および監視するサーバーが必要なようです。
開発コンソールで停止を押したときに、エラーなしでジョブを実行するプロセスが実際に停止したことはありません。スピナーはただ回転し続けます。
クラスタを再起動または停止しても、数時間停止しても何も起こりません。
クラスターが完全に削除された場合にのみ、ジョブが消えます... (しかし、もっとあるので待ってください!) 以前のクラスターのジョブが削除される前に、同じ設定で新しいクラスターを作成すると、古いジョブが新しいクラスターで開始されます。 !!!
OOM エラーが原因で自然に終了したジョブが、クラスターの再起動後に自動的に再起動するのを見てきました。(私の側では、この種のフォールトトレランスのコーディングはありません)
Dataproc ジョブを強制的に停止するにはどうすればよいですか? (gcloud beta dataproc jobs kill
動作しません)
これらの一見関連する問題で何が起こっているか知っている人はいますか?
これらの問題を回避するために Spark ジョブをシャットダウンする特別な方法はありますか?
hadoop - マシン内から Google Cloud Dataproc でハイブを実行する方法は?
Google Cloud Dataproc クラスタを作成しました。いくつかの基本的なことがうまくいきません:
マスター ノードから Hive コンソールを実行しようとしていますが、root 以外のユーザーではロードに失敗します (ロックされているようで、コンソールがスタックしているようです)。
しかし、ルートを使用している場合でも、いくつかの奇妙な動作が見られます。
- 「テーブルを表示;」「入力」という名前のテーブルを示しています
- テーブルをクエリすると、このテーブルが見つからないという例外が発生します。
どのユーザーが Web UI を介してテーブルを作成しているかは明確ではありません。ジョブを作成して実行しましたが、コンソールに結果が表示されません。
それに関する適切なドキュメントが見つかりませんでした-これについて誰か考えがありますか?
google-cloud-pubsub - Dataproc クラスタで追加の認証スコープを有効にする
同じプロジェクトの Pub/Sub プル サブスクリプションに接続する必要がある Dataproc クラスタで Spark(scala)ジョブを実行しようとしていますが、次のエラー メッセージが表示されます。私の Dataproc クラスタ内のマシンには「https://www.googleapis.com/auth/pubsub」スコープがないと思います。
Dataproc クラスタのマシンに認証スコープを追加できますか?
PS: 必要に応じてクラスターを再作成しても問題ありません。
python - pyspark スクリプトを使用して BigQuery から Spark クラスタにテーブルをロードする
bigquery に読み込まれたデータ テーブルがあり、それを pyspark .py ファイル経由で Spark クラスタにインポートしたいと考えています。
Dataproc + BigQuery の例で見た- 利用可能なものはありますか? scala を使用して spark クラスターに bigquery テーブルをロードする方法がありましたが、pyspark スクリプトでそれを行う方法はありますか?
csv - pyspark に Databricks csv ライブラリを読み込む
Google Dataproc で作成した Spark クラスターにdatabricks csv ライブラリ ( https://github.com/databricks/spark-csvを参照) を読み込もうとしています。これらはすべて PySpark を使用して行われます。
PySpark を起動し、次のように入力します。
しかし、私はこの答えを得ます:
これは、ドキュメントhttps://github.com/databricks/spark-csvとhttps://github.com/databricks/spark-csv/issues/59の投稿レビゴットを組み合わせたものと矛盾します。
誰かが私を助けることができますか?
google-cloud-dataproc - BigQueryInputFormat 一時ファイルのクリーンアップ
Spark ジョブで BigQueryInputFormat を使用して、Bigquery から RDD に直接データをロードしています。これに関するドキュメントには、次のコマンドを使用して一時ファイルをクリーンアップする必要があると記載されています。
BigQueryInputFormat.cleanupJob(ジョブ)
ただし、Spark ジョブから、「ジョブ」が Hadoop ジョブの場合、どうすればそれを行うことができますか?
ありがとう、ルーク