問題タブ [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1858 参照

apache-spark - Dataproc クラスタの一時停止 - Google Compute Engine

spark-shell または spark-submit ジョブをアクティブに実行していないときに課金されないように、Dataproc クラスタを一時停止する方法はありますか? このリンクのクラスタ管理手順: https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/

クラスターを破棄する方法のみを示していますが、たとえば、spark cassandra コネクタ API をインストールしました。毎回インストールする必要があるイメージを作成するための唯一の代替手段はありますか?

0 投票する
1 に答える
225 参照

sparkr - Dataproc(Spark 1.5.x)で SparkR が機能しない

Cloud Dataproc クラスタ (バージョン 0.2) で SparkR を使用しようとすると、次のようなエラーが発生します。

SparkR を使用できるようにするには、どうすればこれを修正できますか?

0 投票する
1 に答える
2110 参照

apache-spark - Dataproc クラスタでの Spark-Shell または PySpark-Shell セッションのモニタリング

Google Cloud Logging の Dataproc Spark ジョブからの出力とともに、Dataproc クラスタからSparkジョブ ドライバの出力Hadoop ジョブにアクセスするための回答があることを理解しています。これらに感謝します。

ただし、インタラクティブやセッションなどの不完全なSpark アプリケーションのログを表示することにも関心があります。pyspark-shellspark-shell

  1. 同じ Web インターフェイスを使用して、場合によっては
  2. 生のセッション出力 (ローカル fs または hdfs のログ ファイル?) へのアクセス

Spark シェル セッション中に、セッションを不完全なアプリケーションとして表示することはできますが、REPL でコマンドを実行している場合、UI はJobsStages、およびTasksタブにそのような情報を提供しません。これは次のように簡単に複製できます。

(上記のように) Spark セッションを不完全なアプリケーションとして見ることができ、次のような基本的な Spark ジョブを (collectアクションを使用して) 実行できます。

ただし、これにより、JobsStages、またはStorageタブのいずれにも情報が表示されません: Spark ジョブ履歴 UI 画面グラブ (空白) を参照してください

ただし、Dataproc API を介してジョブを送信する場合、これらのタブには予想されるすべてのジョブ履歴が表示されます。

Spark シェル セッションからそのような出力/ジョブ履歴にアクセスできる場所に関するヒントはありますか? よろしくお願いします。:)

0 投票する
2 に答える
124 参照

apache-spark - Spark 1.6.0 への Google Cloud Dataproc の移行

Google Dataproc は、Spark 1.6.0 の使用をすぐに開始しますか? 次のコマンドを使用してクラスターを作成しています。

デフォルトでは Spark 1.5.2 を使用します。

ありがとう。

0 投票する
3 に答える
7877 参照

python - pyspark でジョブを送信する際に、--files 引数を使用して静的ファイルのアップロードにアクセスするにはどうすればよいですか?

たとえば、次のフォルダーがあります。

ジョブは次のように Spark クラスターに送信されます。

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

で、test.pyアップロードした静的ファイルにアクセスしたい。

しかし、次の例外が発生しました:

アップロードしたファイルにアクセスするにはどうすればよいですか?

0 投票する
1 に答える
512 参照

apache-spark - Apache Spark SQL の Google ストレージ内のデータへのアクセス

クラウド ストレージに約 30 Gb 相当のデータがあり、Dataproc クラスタから Apache Hive を使用してクエリを実行したいと考えています。このデータにアクセスするための最善の戦略は何ですか? gsutilを介してデータをマスターにコピーし、そこからアクセスするのが最善の方法ですか、それともクラウド ストレージで直接アクセスできますか? 後者の場合、Spark CLI でその場所を指定するにはどうすればよいですか? 指定できますか

私が走るとき

?

0 投票する
1 に答える
270 参照

apache-spark - PySpark の exec sh

PySpark のジョブで .py ファイルからロードする .sh ファイルを実行しようとしていますが、常に .sh ファイルが見つからないというメッセージが表示されます

これは私のコードです:

test.py:

そして私の gcloud コマンド:

test.py ファイルは適切にロードされていますが、システムが check.sh ファイルを見つけることができません。

os.system("sh home/myuser/check.sh")私も同じ結果を試しました

これは簡単にできるはずだと思います...アイデア?