問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - POM ファイルに含まれているのに、Google Dataproc が coreNLP jar をプルしないのはなぜですか?
私のアプリケーションは、Spark を使用する Java Maven プロジェクトです。スタンフォードcoreNLP依存関係を追加する私のpomのセクションは次のとおりです。
次のエラーが表示されます。
Spark などの他の依存関係があり、dataproc はそれらを正常にプルします。今、coreNLP を追加しました。ラップトップでは問題なく動作しますが、google dataproc では失敗します。
google-cloud-platform - 使用していないときに dataproc クラスタを終了するにはどうすればよいですか?
ユーザーからのジョブを受け入れるシステムがあります。これらのジョブは、dataproc で spark ジョブとして実行されます。日中は多くのジョブが実行されていますが、夜は何もない場合があります。これらのダウンタイム中にクラスターを終了し、新しいジョブを受信したらクラスターを再起動または再作成する最良の方法は何ですか? ここでの目標は、非アクティブな期間に課金されないようにすることです。
apache-spark - PySpark の Window 関数のパーティションを設定するには?
PySpark ジョブを実行していますが、次のメッセージが表示されます。
メッセージは何を示していますか? また、ウィンドウ操作用にパーティションを定義するにはどうすればよいですか?
編集:
列全体でランク付けしようとしています。
私のデータは次のように編成されています。
そして私が欲しい:
これには .partitionBy() を使用する必要はないと思います。.orderBy() のみです。問題は、これがパフォーマンスの低下を引き起こすように見えることです。ウィンドウ関数なしでこれを達成する別の方法はありますか?
最初の列で分割すると、結果は次のようになります。
私はしたくない。
google-cloud-sql - Dataproc から Cloud SQL にアクセスするにはどうすればよいですか?
Dataproc クラスタがあり、クラスタが Cloud SQL インスタンスにアクセスできるようにしたいと考えています。クラスタを作成したときにスコープを割り当てましたが、 Cloud SQL のドキュメント--scopes sql-admin
を読んだ後、プロキシ経由で接続する必要があるようです。これを dataproc からのアクセス用に構成するにはどうすればよいですか?
アップデート:
統合が箱から出されるまで(@vadimの回答)、dataproc初期化スクリプトでクラウドプロキシを使用することでこれを機能させることができます:
(注: ポート 3306 は既に使用されているため、ここでは 3307 を使用しています)
google-bigquery - ファイル名にパーティション値を使用して、パーティション化されたデータをファイルに書き込むにはどうすればよいですか?
RDBMS から月ごとに大量のデータをアンロードし、その月に基づいて Google Cloud Storage (GCS) にロードしました。次に、データセット全体を dataproc クラスタの pyspark データ フレームに読み込み、月ではなく日を基に GCS に再書き込みしたいと考えています。各ファイルに特定の日付のみが含まれるクラウド ストレージへの書き込みは成功しましたが、効率的に行うことができませんでした。その日付に基づいてファイルまたはディレクトリに名前を付けます。以下のコードは、私がやりたいことを実行しますが、非常に非効率的です。また、寄木細工のファイルを使用することで理論的にはこれを回避できることも知っていますが、私の要件は CSV として書き込むことです。最終的には、このデータを 1 日あたりのテーブルで bigquery にロードしたいと考えています。より簡単な解決策があれば (そして、1 日あたりの各テーブルをファイルにエクスポートするだけで済みます)。
読み込んだデータの日付が ['2014-01-01', '2014-01-02', '2014-01-03'] だとすると、結果のファイル/ディレクトリは次のようになります。
gs://buck_1/AUDIT/2014-01-01/part-1
gs://buck_1/AUDIT/2014-01-01/part-2
gs://buck_1/AUDIT/2014-01-01/part- 3
gs://buck_1/AUDIT/2014-01-01/part-4
gs://buck_1/AUDIT/2014-01-02/part-1
gs://buck_1/AUDIT/2014-01-02/part-2
gs://buck_1/AUDIT/2014-01-02/part- 3
gs://buck_1/AUDIT/2014-01-02/part-4
gs://buck_1/AUDIT/2014-01-03/part-1
gs://buck_1/AUDIT/2014-01-03/part-2
gs://buck_1/AUDIT/2014-01-03/part- 3
gs://buck_1/AUDIT/2014-01-03/part-4
apache-spark - Dataproc クラスタのパーティション数を指定 / 確認する方法
1 台のマスター n1-standard-4 と 4 台のワーカーマシン、さらに n1-standard-4 の Dataproc クラスタをスピンアップした場合、デフォルトで作成されるパーティションの数を確認するにはどうすればよいですか? 32 個のパーティションがあることを確認したい場合、PySpark スクリプトでどの構文を使用すればよいですか? Google Storage バケットから .csv ファイルを読み込んでいます。
単純にですか
実行中のパーティションの数を確認するにはどうすればよいですか (Dataproc ジョブの出力画面を使用しますか?
ありがとう