問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Google Cloud Platform でスケジュールされた mapreduce ジョブ
基本的にユーザーイベントログをデータベースに保存し、ユーザーアクションに関する洞察を表示する node.js アプリケーションを開発しています。これを実現するには、1 日 1 回(毎晩)自動的に実行されるMapreduceジョブを使用して、イベント ログを分析する必要があります。
Google クラウドの Web サイトで mapreduce に関するチュートリアルをたくさん見つけましたが、いくつかのテクノロジがあり、コマンド ラインを使用せずにそれを行う方法を見つけることができず、スケジューリングに関する情報がないため、完全に迷っています(分析プロセス全体を完全に自動化したい)
どの Google テクノロジーを使用すればよいか、または適切なチュートリアルをどこで見つけることができるかについて、アドバイスをいただけないでしょうか。
ありがとうございました
hadoop - Oozie ワークフロー実行時の例外
引数なしで Spark ジョブを呼び出すだけの Hue で作成した単純なワークフローを実行しようとしていますが、実行時に例外が発生します。これは Google DataProc クラスターで実行されており、Oozie 4.2.0 と Hue 3.9 を UI として使用して実行しています。
mapreduce.framework.name が糸用であることを確認しました。これまでにいくつかの解決策をオンラインで見つけましたが、それらはすべてワークフロー XML の問題に関連していました。私は手作業で再構築しましたが、その方法でも同じことをしています。
私のワークフローのコードは次のとおりです。
私が受け取っているログからの出力は次のとおりです。
編集:ここで要求されているのは、私の mapred-site.xml ファイルです:
編集 2: Hue に job.properties ファイルをエクスポートさせることはできませんが、コマンドラインでこれをテストしたときに生成したものを次に示します。生成されたものはそれほど変わらないと確信しています。
google-bigquery - Dataproc で BigQuery を使用する方法はありますか?
IPv4 アドレスを使用して GCSQL に接続することにより、Google Cloud SQL (MySQL) 上のデータで Dataproc を使用しました。BigQuery でデータを使用できるように、Dataproc から BigQuery への接続はありますか?
google-cloud-storage - PySpark + Google Cloud Storage (wholeTextFiles)
PySpark (Google Dataproc) を使用して約 100 万の HTML ファイルを解析し、関連するフィールドを圧縮ファイルに書き込もうとしています。各 HTML ファイルは約 200KB です。したがって、すべてのデータは約200GBです。
以下のコードは、データのサブセットを使用する場合は問題なく動作しますが、データセット全体で実行すると数時間実行されてからクラッシュします。さらに、ワーカー ノードが使用されていない (CPU の 5% 未満) ため、何らかの問題があることがわかります。
システムが GCS からのデータの取り込みで窒息していると思います。これを行うより良い方法はありますか?また、この方法で wholeTextFiles を使用すると、マスターはすべてのファイルをダウンロードしてエグゼキュータに送信しようとしますか、それともエグゼキュータにダウンロードさせますか?
pyspark - jupyterノートブックを使用してpysparkにパッケージを追加する
https://cloud.google.com/dataproc/tutorials/jupyter-notebookを使用して、pyspark で jupyter を正常に実行できます
私の質問は、pyspark (spark-csv や graphframes など) にパッケージを追加し、それらをノートブックで使用する必要がある場合、従うべきベスト プラクティスは何ですか? --packages オプションを使用して新しい pyspark ジョブにパッケージを追加できますが、その新しい pyspark コンテキストをノートブックに接続するにはどうすればよいですか?
gcloud - DataProc クラスタの Google Cloud Sdk
google-dataproc クラスタから pub-sub などの python google cloud api を使用/インストールする正しい方法は何ですか? たとえば、クラスターで zeppelin/pyspark を使用していて、pub-sub API を使用したい場合、どのように準備すればよいですか?
デフォルトのクラスタ プロビジョニング中に何がインストールされ、何がインストールされていないのか、Google クラウド API 用の Python ライブラリをインストールする必要があるかどうか、またはその方法が不明です。
さらに、セットアップにはスコープ/認証が必要な場合があることを認識しています。明確にするために、API をローカルで使用することはできますが、クラスターから API にアクセスできるようにする最もクリーンな方法が何であるかはわかりません。不要な手順は実行したくありません。
apache-spark - Google Cloud Dataproc では、すべてのログはどこに保存されますか?
1 マスター、3 ワーカー クラスター全体に配布する PySpark ジョブがあります。
コードのデバッグに役立つ Python 印刷コマンドがいくつかあります。
これで、マスターをローカルに設定して Google Dataproc でコードを実行すると、印刷が正しく出力されます。ただし、yaarn ベースの Spark を使用したプリントである yarn で実行しようとすると、Google Cloud Console の Dataproc UI のジョブ セクションにプリント出力が表示されません。
Google Dataproc コンソールに表示されない各ワーカーとマスターからのこれらの python 印刷出力にはどこからアクセスできますか