問題タブ [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
111 参照

java - POM ファイルに含まれているのに、Google Dataproc が coreNLP jar をプルしないのはなぜですか?

私のアプリケーションは、Spark を使用する Java Maven プロジェクトです。スタンフォードcoreNLP依存関係を追加する私のpomのセクションは次のとおりです。

次のエラーが表示されます。

Spark などの他の依存関係があり、dataproc はそれらを正常にプルします。今、coreNLP を追加しました。ラップトップでは問題なく動作しますが、google dataproc では失敗します。

0 投票する
3 に答える
1850 参照

google-cloud-platform - 使用していないときに dataproc クラスタを終了するにはどうすればよいですか?

ユーザーからのジョブを受け入れるシステムがあります。これらのジョブは、dataproc で spark ジョブとして実行されます。日中は多くのジョブが実行されていますが、夜は何もない場合があります。これらのダウンタイム中にクラスターを終了し、新しいジョブを受信したらクラスターを再起動または再作成する最良の方法は何ですか? ここでの目標は、非アクティブな期間に課金されないようにすることです。

0 投票する
1 に答える
9345 参照

apache-spark - PySpark の Window 関数のパーティションを設定するには?

PySpark ジョブを実行していますが、次のメッセージが表示されます。

メッセージは何を示していますか? また、ウィンドウ操作用にパーティションを定義するにはどうすればよいですか?

編集:

列全体でランク付けしようとしています。

私のデータは次のように編成されています。

そして私が欲しい:

これには .partitionBy() を使用する必要はないと思います。.orderBy() のみです。問題は、これがパフォーマンスの低下を引き起こすように見えることです。ウィンドウ関数なしでこれを達成する別の方法はありますか?

最初の列で分割すると、結果は次のようになります。

私はしたくない。

0 投票する
2 に答える
2667 参照

google-cloud-sql - Dataproc から Cloud SQL にアクセスするにはどうすればよいですか?

Dataproc クラスタがあり、クラスタが Cloud SQL インスタンスにアクセスできるようにしたいと考えています。クラスタを作成したときにスコープを割り当てましたが、 Cloud SQL のドキュメント--scopes sql-adminを読んだ後、プロキシ経由で接続する必要があるようです。これを dataproc からのアクセス用に構成するにはどうすればよいですか?

アップデート:

統合が箱から出されるまで(@vadimの回答)、dataproc初期化スクリプトでクラウドプロキシを使用することでこれを機能させることができます:

(注: ポート 3306 は既に使用されているため、ここでは 3307 を使用しています)

0 投票する
0 に答える
791 参照

scala - Spark ジョブを実行しようとすると Dataproc がハングする

クラウド ストレージから読み取り、いくつかの操作を実行し、大きなクエリに書き込む scala の spark ジョブがあります。ローカル (マスター ローカル [*] デプロイ モード クライアント) では問題なく動作しますが、データ プロシージャではエグゼキュータを割り当て、計画段階を過ぎたように見え、ジョブを実行しようとするとハングします。

コード:

タイムライン: ここに画像の説明を入力

ログ:

メインスレッド:

0 投票する
0 に答える
405 参照

google-bigquery - ファイル名にパーティション値を使用して、パーティション化されたデータをファイルに書き込むにはどうすればよいですか?

RDBMS から月ごとに大量のデータをアンロードし、その月に基づいて Google Cloud Storage (GCS) にロードしました。次に、データセット全体を dataproc クラスタの pyspark データ フレームに読み込み、月ではなく日を基に GCS に再書き込みしたいと考えています。各ファイルに特定の日付のみが含まれるクラウド ストレージへの書き込みは成功しましたが、効率的に行うことができませんでした。その日付に基づいてファイルまたはディレクトリに名前を付けます。以下のコードは、私がやりたいことを実行しますが、非常に非効率的です。また、寄木細工のファイルを使用することで理論的にはこれを回避できることも知っていますが、私の要件は CSV として書き込むことです。最終的には、このデータを 1 日あたりのテーブルで bigquery にロードしたいと考えています。より簡単な解決策があれば (そして、1 日あたりの各テーブルをファイルにエクスポートするだけで済みます)。

読み込んだデータの日付が ['2014-01-01', '2014-01-02', '2014-01-03'] だとすると、結果のファイル/ディレクトリは次のようになります。

gs://buck_1/AUDIT/2014-01-01/part-1
gs://buck_1/AUDIT/2014-01-01/part-2
gs://buck_1/AUDIT/2014-01-01/part- 3
gs://buck_1/AUDIT/2014-01-01/part-4

gs://buck_1/AUDIT/2014-01-02/part-1
gs://buck_1/AUDIT/2014-01-02/part-2
gs://buck_1/AUDIT/2014-01-02/part- 3
gs://buck_1/AUDIT/2014-01-02/part-4

gs://buck_1/AUDIT/2014-01-03/part-1
gs://buck_1/AUDIT/2014-01-03/part-2
gs://buck_1/AUDIT/2014-01-03/part- 3
gs://buck_1/AUDIT/2014-01-03/part-4

0 投票する
1 に答える
272 参照

apache-spark - Dataproc クラスタのパーティション数を指定 / 確認する方法

1 台のマスター n1-standard-4 と 4 台のワーカーマシン、さらに n1-standard-4 の Dataproc クラスタをスピンアップした場合、デフォルトで作成されるパーティションの数を確認するにはどうすればよいですか? 32 個のパーティションがあることを確認したい場合、PySpark スクリプトでどの構文を使用すればよいですか? Google Storage バケットから .csv ファイルを読み込んでいます。

単純にですか

実行中のパーティションの数を確認するにはどうすればよいですか (Dataproc ジョブの出力画面を使用しますか?

ありがとう