問題タブ [google-cloud-dataproc]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1287 問題

0 投票する

1 に答える

1858 参照

apache-spark - Dataproc クラスタの一時停止 - Google Compute Engine

spark-shell または spark-submit ジョブをアクティブに実行していないときに課金されないように、Dataproc クラスタを一時停止する方法はありますか? このリンクのクラスタ管理手順: https://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/

クラスターを破棄する方法のみを示していますが、たとえば、spark cassandra コネクタ API をインストールしました。毎回インストールする必要があるイメージを作成するための唯一の代替手段はありますか?

apache-spark google-cloud-dataproc

2016-01-01T17:38:52.757

0 投票する

1 に答える

225 参照

sparkr - Dataproc（Spark 1.5.x）で SparkR が機能しない

Cloud Dataproc クラスタ (バージョン 0.2) で SparkR を使用しようとすると、次のようなエラーが発生します。

SparkR を使用できるようにするには、どうすればこれを修正できますか?

sparkr google-cloud-dataproc

2016-01-05T16:26:39.420

0 投票する

1 に答える

2110 参照

apache-spark - Dataproc クラスタでの Spark-Shell または PySpark-Shell セッションのモニタリング

Google Cloud Logging の Dataproc Spark ジョブからの出力とともに、Dataproc クラスタからSparkジョブドライバの出力とHadoop ジョブにアクセスするための回答があることを理解しています。これらに感謝します。

ただし、インタラクティブやセッションなどの不完全なSpark アプリケーションのログを表示することにも関心があります。pyspark-shellspark-shell

同じ Web インターフェイスを使用して、場合によっては
生のセッション出力 (ローカル fs または hdfs のログファイル?) へのアクセス

Spark シェルセッション中に、セッションを不完全なアプリケーションとして表示することはできますが、REPL でコマンドを実行している場合、UI はJobs、Stages、およびTasksタブにそのような情報を提供しません。これは次のように簡単に複製できます。

(上記のように) Spark セッションを不完全なアプリケーションとして見ることができ、次のような基本的な Spark ジョブを (collectアクションを使用して) 実行できます。

ただし、これにより、Jobs、Stages、またはStorageタブのいずれにも情報が表示されません: Spark ジョブ履歴 UI 画面グラブ (空白) を参照してください。

ただし、Dataproc API を介してジョブを送信する場合、これらのタブには予想されるすべてのジョブ履歴が表示されます。

Spark シェルセッションからそのような出力/ジョブ履歴にアクセスできる場所に関するヒントはありますか? よろしくお願いします。:)

apache-spark google-cloud-dataproc

2016-01-13T21:55:24.617

0 投票する

2 に答える

124 参照

apache-spark - Spark 1.6.0 への Google Cloud Dataproc の移行

Google Dataproc は、Spark 1.6.0 の使用をすぐに開始しますか? 次のコマンドを使用してクラスターを作成しています。

デフォルトでは Spark 1.5.2 を使用します。

ありがとう。

apache-spark google-cloud-dataproc

2016-01-19T19:40:56.697

0 投票する

3 に答える

7877 参照

python - pyspark でジョブを送信する際に、--files 引数を使用して静的ファイルのアップロードにアクセスするにはどうすればよいですか?

たとえば、次のフォルダーがあります。

ジョブは次のように Spark クラスターに送信されます。

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

で、test.pyアップロードした静的ファイルにアクセスしたい。

しかし、次の例外が発生しました:

アップロードしたファイルにアクセスするにはどうすればよいですか?

python apache-spark pyspark google-cloud-dataproc

2016-01-22T05:19:56.757

0 投票する

1 に答える

512 参照

apache-spark - Apache Spark SQL の Google ストレージ内のデータへのアクセス

クラウドストレージに約 30 Gb 相当のデータがあり、Dataproc クラスタから Apache Hive を使用してクエリを実行したいと考えています。このデータにアクセスするための最善の戦略は何ですか? gsutilを介してデータをマスターにコピーし、そこからアクセスするのが最善の方法ですか、それともクラウドストレージで直接アクセスできますか? 後者の場合、Spark CLI でその場所を指定するにはどうすればよいですか? 指定できますか

私が走るとき

apache-spark apache-spark-sql google-cloud-dataproc

2016-01-27T09:34:58.837

0 投票する

1 に答える

270 参照

apache-spark - PySpark の exec sh

PySpark のジョブで .py ファイルからロードする .sh ファイルを実行しようとしていますが、常に .sh ファイルが見つからないというメッセージが表示されます

これは私のコードです:

test.py:

そして私の gcloud コマンド：

test.py ファイルは適切にロードされていますが、システムが check.sh ファイルを見つけることができません。

os.system("sh home/myuser/check.sh")私も同じ結果を試しました

これは簡単にできるはずだと思います...アイデア？

apache-spark pyspark google-cloud-dataproc

2016-02-03T17:20:18.957

1 2 3 4 5 6 7 8 9 10

問題タブ [google-cloud-dataproc]

Reference