問題タブ [google-cloud-dataproc]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1287 問題

0 投票する

2 に答える

1176 参照

hdfs - Google Dataproc HDFS Name Node がセーフモードになっているのはなぜですか?

hdfs:///home/bryan/test_file/Spark ジョブを Dataproc クラスタに送信して、HDFS ディレクトリに書き込もうとしています。

名前ノードがセーフモードであるというエラーが表示されます。セーフモードを解除する解決策はありますが、これは別の理由で発生している可能性があるのではないかと心配しています。

Dataproc クラスタがセーフモードになっているのはなぜですか?

2015-10-01T19:12:55.700

0 投票する

3 に答える

2622 参照

apache-spark - Spark - JDBC ドライバー JAR を Google Dataproc に追加する

私はJDBC経由で書き込もうとしています:

Sparkのドキュメントspark.driver.extraClassPathでは、JVM がすでに起動されているため、クライアントモード（Dataproc が実行されるモード）で実行されている場合、構成オプションを使用して JDBC ドライバ JAR を追加することはできないと説明されています。

Dataproc の submit コマンドに JAR パスを追加してみました。

ドライバーをロードするコマンドも追加しました。

しかし、私はまだエラーが発生します:

apache-spark jdbc google-cloud-platform apache-spark-sql google-cloud-dataproc

2015-10-05T21:37:08.217

0 投票する

1 に答える

492 参照

google-cloud-platform - Cloud Dataproc 使用時のサービスアカウントエラー

Cloud Dataproc でサービスアカウントを使用すると権限エラーが発生するため、Dataproc でサービスアカウントを使用することはできないようです。

たとえば、コマンドを実行すると、次gcloud beta dataproc clusters listのようなエラーが表示されます(gcloud.beta.dataproc.clusters.list) Request had insufficient authentication scopes

Cloud Dataproc ではサービスアカウントを使用できますか?

google-cloud-platform google-cloud-dataproc

2015-10-06T21:13:07.367

0 投票する

1 に答える

676 参照

hadoop - BigQuery Hadoop コネクタと Dataproc

BigQuery Hadoop コネクタはDataprocクラスタで自動的にデプロイされますか?

hadoop google-bigquery google-cloud-platform google-cloud-dataproc

2015-10-08T03:29:05.670

0 投票する

1 に答える

618 参照

azure - クラウドサービスを利用した並列ファイル処理

より多くの画像ファイルを作成するためにJavaプログラムを実行する必要がある多くの画像があります-恥ずかしいほど類似したケースです。各入力ファイルは約 500 MB で、処理中に約 4 GB のメモリが必要で、実行には 30 秒から 2 分かかります。Java プログラムはマルチスレッド化されていますが、より多くのスレッドを使用するよりも、入力ファイルを並列化することでより多くの利益が得られます。1 日に数回プロセスを開始する必要があります (クラスターを手動でオン/オフにしたり、24 時間年中無休で支払いをしたりしたくありません)。

私はそこにあるさまざまなクラウドオプションに少し迷っています。

Amazonラムダのシステムリソースが不足しています (メモリが不足しています)。
Google Cloud DataFlowの場合、Cloud Storage バケットを使用するには、独自のパイプラインソースを作成する必要があるようです。わかりましたが、それが適切な解決策でない場合は、時間を無駄にしたくありません (そうかもしれませんが、まだわかりません)。
Amazonデータパイプラインは、Google Cloud DataFlow と同等のようです。(完全を期すために編集で追加されました。 )
Google Cloud Dataproc、これは map/reduce hadoop-y の状況ではありませんが、それでも機能する可能性があります。ただし、自分のクラスターを管理したくありません。
自動スケーリングを備えた Google コンピューティングエンジンまたは AWS で、マシンのコアごとにプロセスを開始するだけです。私からの管理は増えますが、学ぶべき API はありません。
Microsoft Data Lakeはまだリリースされておらず、hadoop のように見えます。
Microsoft Batchは非常に適しているようです (ただし、他のオプションにまだ興味があるので質問しています)。

これに適切な解決策を教えてくれる人はいますか?

azure amazon-web-services google-compute-engine google-cloud-dataflow google-cloud-dataproc

2015-10-09T20:35:54.237

0 投票する

2 に答える

655 参照

google-cloud-dataproc - Dataproc に Jupyter / iPython をインストールするにはどうすればよいですか？

Cloud Dataprocで Jupyter/iPythonを使用したい。新しいクラスターを作成するときに、どのように自動的にインストールして構成できますか?

google-cloud-dataproc

2015-10-13T20:27:31.297

1 2 3 4 5 6 7 8 9 10

問題タブ [google-cloud-dataproc]

hdfs - Google Dataproc HDFS Name Node がセーフモードになっているのはなぜですか?

apache-spark - Spark - JDBC ドライバー JAR を Google Dataproc に追加する

google-cloud-platform - Cloud Dataproc 使用時のサービス アカウント エラー

hadoop - BigQuery Hadoop コネクタと Dataproc

azure - クラウドサービスを利用した並列ファイル処理

google-cloud-dataproc - Dataproc に Jupyter / iPython をインストールするにはどうすればよいですか？

Reference

google-cloud-platform - Cloud Dataproc 使用時のサービスアカウントエラー