問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ローカルマシンでの Dataproc BigQuery サンプルの実行
ローカル マシンでコネクタの例を実行しようとしていますが、UnknownHostException が発生し続けます。Hadoop コネクタを使用して BigQuery へのアクセスを構成するにはどうすればよいですか?
しかし、私は得るUnknownHostException
アクセス資格情報またはアクセス許可を設定する必要があるようですが、それに関するドキュメントはありません。
https://console.developers.google.com/project/ /apiui/ credential から資格情報をダウンロードしてセットアップしましGOOGLE_APPLICATION_CREDENTIALS
たが、うまくいかないようでした。
何か助けはありますか?
apache-spark-sql - sbt scala からの google dataproc 上の spark-sql
Google Dataproc Spark クラスターを使用して、私の sbt ビルド アセンブリ jar は SparkContext 経由で Cassandra にアクセスできます。
ただし、sqlContext 経由でアクセスしようとすると、リモート クラスタで見つからない spark sql クラスが取得されますが、dataproc クラスタは spark sql 用にプロビジョニングされているはずだと思います。
私のsbtファイル:
spark-sql で「provided」をオフにすると、jar 重複マージ地獄に陥ります。
助けてくれてありがとう。
apache-spark - groupBy で PySpark Yarn アプリケーションが失敗する
Google クラウド ストレージから読み取った大量のデータ ( 2TB ) を処理するジョブを Yarn モードで実行しようとしています。
パイプラインは次のように要約できます。
10GBのデータで実行すると、問題なく完了します。ただし、完全なデータセットで実行すると、コンテナー内の次のログで常に失敗します。
マスターに接続して各操作を1つずつ起動して調べてみたところ、groupByで失敗するようです。また、ノードを追加してメモリと CPU の数をアップグレードすることでクラスターの再スケーリングを試みましたが、それでも同じ問題が発生します。
同じ仕様の 120 ノード + 1 マスター: 8 vCPU - 52 GB メモリ
同様の問題を抱えたスレッドを見つけようとしましたが成功しませんでした。ログがあまり明確ではないため、どのような情報を提供すればよいかわかりません。詳細についてはお気軽にお問い合わせください。
主キーはすべてのレコードに必要な値であり、フィルタなしのすべてのキーが必要です。これは約 60 万キーを表します。クラスターを大規模なものにスケーリングせずに、この操作を実行することは本当に可能ですか? 私は、databricks が 100 TB のデータ ( https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html ) で並べ替えを行ったことを読みましたが、これには大規模なシャッフルも含まれます。複数のインメモリ バッファを 1 つのバッファに置き換えることで成功し、多くのディスク IO が発生しました。私のクラスター規模でそのような操作を実行することは可能ですか?
google-cloud-dataproc - Hadoop FileSystem API を使用して Google クラウド ストレージにアクセスする
私のマシンから、スキームcore-site.xml
を認識するgs://
ように Hadoop を構成し、Hadoop ライブラリとして gcs-connector-1.2.8.jar を追加しました。実行hadoop fs -ls gs://mybucket/
して、期待される結果を得ることができます。ただし、次を使用してJavaからアナログを実行しようとすると:
ではなくローカル HDFS のルートの下にファイルを取得しますgs://mybucket/
が、それらのファイルにはgs://mybucket
. fsを取得する前にconfを変更すると、conf.set("fs.default.name", "gs://mybucket");
GCSでファイルを見ることができます。
私の質問は次のとおり
です。1.これは予想される動作ですか?
2. Google クラウド ストレージ クライアント API とは対照的に、この Hadoop FileSystem API を使用することに不利な点はありますか?
hadoop - Dataproc クラスタの自動セットアップ後の Yarn/Spark のメモリ割り当てが正しくない
Dataproc クラスタで Spark ジョブを実行しようとしていますが、Yarn が正しく構成されていないため、Spark が起動しません。
シェルから "spark-shell" を (ローカルでマスター上で) 実行するとき、およびローカル マシンから Web GUI および gcloud コマンド ライン ユーティリティを介してジョブをアップロードするときに、次のエラーが表示されます。
の値を変更しようとしまし/etc/hadoop/conf/yarn-site.xml
たが、何も変わりませんでした。そのファイルから構成を引き出すとは思わない。
複数のサイト (主にヨーロッパ) で複数のクラスターの組み合わせを試しましたが、これは低メモリ バージョン (4 コア、15 GB メモリ) でしか機能しませんでした。
つまり、これは、yarn のデフォルトで許可されているメモリよりも高いメモリ用に構成されたノードでのみ発生する問題です。
apache-spark - Dataproc での処理が 9 時間、ローカル マシンでは 3 分と非常に遅い
ログから、182k 行 70MB あることがわかります。Dataproc で 182,000 行をトレーニングするには、70 MB のデータを読み込むのに 1.5 時間かかり、9 時間(15/11/14 01:58:28 に開始して 15/11/14 09:19:09 に終了)かかります。ローカル マシンで同じデータを読み込んで同じアルゴリズムを実行するのに 3 分かかります
DataProc ログ
データをローカル マシンにコピーしました
/li>同じアルゴリズムを実行しました。ALS トレイン ステップの所要時間は約 3 分
/li>
ファーストラン
セカンドラン
DataProc クラスターには、それぞれ 104 GB (RAM) と 16 個の CPU を備えた 1 つのマスターと 3 つのスレーブがあります。
私のローカル マシンには 8GB (RAM) と 2 つの CPU 2.7GHz Core i5 があります。
apache-spark - pySpark フォールト トレラント構成
糸モードの大規模な Spark クラスターで長いジョブ (+ 3 時間) を実行しています。spark を実行している VM ワーカーは Google Cloud Dataproc でホストされており、そのほとんどは実行中に破棄できます (コストが低いプリエンプティブル VM)。
これが発生すると、破棄されたワーカーでタスクが失敗し、失敗したワーカーのコンテナー ログに次のエラーが記録されるため、ジョブは失敗します。
1000 に設定spark.task.maxFailures
してみましたが、これはあまり効果的ではないようです。ジョブが終了しても、タスクは自動的に再分散されないようで、この特定のワーカーに割り当てられたタスクの計算はロールするようです初期段階に戻ります。
応答しないエグゼキュータを単純に除外し、それらのタスクを再割り当てする、よりフォールト トレラントな構成を持つ方法はありますか?
要求があれば、ressourcemanager のログ、nodemanager、およびコンテナーのログを含めることもできますが、関連性はないと思います。
google-cloud-dataproc - Dataproc で Spark と Hadoop のジョブ履歴にアクセスするにはどうすればよいですか?
Google Cloud Dataprocで、Spark または Hadoop のジョブ履歴サーバーにアクセスするにはどうすればよいですか? ジョブを実行するときにジョブ履歴の詳細を確認できるようにしたいと考えています。