問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hdfs - Google Dataproc HDFS Name Node がセーフモードになっているのはなぜですか?
hdfs:///home/bryan/test_file/
Spark ジョブを Dataproc クラスタに送信して、HDFS ディレクトリに書き込もうとしています。
名前ノードがセーフ モードであるというエラーが表示されます。セーフ モードを解除する解決策はありますが、これは別の理由で発生している可能性があるのではないかと心配しています。
Dataproc クラスタがセーフモードになっているのはなぜですか?
apache-spark - Spark - JDBC ドライバー JAR を Google Dataproc に追加する
私はJDBC経由で書き込もうとしています:
Sparkのドキュメントspark.driver.extraClassPath
では、JVM がすでに起動されているため、クライアント モード(Dataproc が実行されるモード)で実行されている場合、構成オプションを使用して JDBC ドライバ JAR を追加することはできないと説明されています。
Dataproc の submit コマンドに JAR パスを追加してみました。
ドライバーをロードするコマンドも追加しました。
しかし、私はまだエラーが発生します:
google-cloud-platform - Cloud Dataproc 使用時のサービス アカウント エラー
Cloud Dataproc でサービス アカウントを使用すると権限エラーが発生するため、Dataproc でサービス アカウントを使用することはできないようです。
たとえば、コマンドを実行すると、次gcloud beta dataproc clusters list
のようなエラーが表示されます(gcloud.beta.dataproc.clusters.list) Request had insufficient authentication scopes
Cloud Dataproc ではサービス アカウントを使用できますか?
hadoop - BigQuery Hadoop コネクタと Dataproc
BigQuery Hadoop コネクタはDataprocクラスタで自動的にデプロイされますか?
azure - クラウドサービスを利用した並列ファイル処理
より多くの画像ファイルを作成するためにJavaプログラムを実行する必要がある多くの画像があります-恥ずかしいほど類似したケースです。各入力ファイルは約 500 MB で、処理中に約 4 GB のメモリが必要で、実行には 30 秒から 2 分かかります。Java プログラムはマルチスレッド化されていますが、より多くのスレッドを使用するよりも、入力ファイルを並列化することでより多くの利益が得られます。1 日に数回プロセスを開始する必要があります (クラスターを手動でオン/オフにしたり、24 時間年中無休で支払いをしたりしたくありません)。
私はそこにあるさまざまなクラウドオプションに少し迷っています。
- Amazonラムダのシステム リソースが不足しています (メモリが不足しています)。
- Google Cloud DataFlowの場合、Cloud Storage バケットを使用するには、独自のパイプライン ソースを作成する必要があるようです。わかりましたが、それが適切な解決策でない場合は、時間を無駄にしたくありません (そうかもしれませんが、まだわかりません)。
- Amazonデータ パイプラインは、Google Cloud DataFlow と同等のようです。(完全を期すために編集で追加されました。 )
- Google Cloud Dataproc、これは map/reduce hadoop-y の状況ではありませんが、それでも機能する可能性があります。ただし、自分のクラスターを管理したくありません。
- 自動スケーリングを備えた Google コンピューティング エンジンまたは AWS で、マシンのコアごとにプロセスを開始するだけです。私からの管理は増えますが、学ぶべき API はありません。
- Microsoft Data Lakeはまだリリースされておらず、hadoop のように見えます。
- Microsoft Batchは非常に適しているようです (ただし、他のオプションにまだ興味があるので質問しています)。
これに適切な解決策を教えてくれる人はいますか?
google-cloud-dataproc - Dataproc に Jupyter / iPython をインストールするにはどうすればよいですか?
Cloud DataprocでJupyter/iPythonを使用したい。新しいクラスターを作成するときに、どのように自動的にインストールして構成できますか?