“google-cloud-dataproc”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

976 参照

hadoop - ローカルマシンでの Dataproc BigQuery サンプルの実行

ローカルマシンでコネクタの例を実行しようとしていますが、UnknownHostException が発生し続けます。Hadoop コネクタを使用して BigQuery へのアクセスを構成するにはどうすればよいですか?

しかし、私は得るUnknownHostException

アクセス資格情報またはアクセス許可を設定する必要があるようですが、それに関するドキュメントはありません。

https://console.developers.google.com/project/ /apiui/ credential から資格情報をダウンロードしてセットアップしましGOOGLE_APPLICATION_CREDENTIALSたが、うまくいかないようでした。

何か助けはありますか？

hadoop google-cloud-dataproc

2015-11-03T21:58:07.983

0 投票する

1 に答える

480 参照

apache-spark-sql - sbt scala からの google dataproc 上の spark-sql

Google Dataproc Spark クラスターを使用して、私の sbt ビルドアセンブリ jar は SparkContext 経由で Cassandra にアクセスできます。

ただし、sqlContext 経由でアクセスしようとすると、リモートクラスタで見つからない spark sql クラスが取得されますが、dataproc クラスタは spark sql 用にプロビジョニングされているはずだと思います。

私のsbtファイル：

spark-sql で「provided」をオフにすると、jar 重複マージ地獄に陥ります。

助けてくれてありがとう。

apache-spark-sql google-cloud-dataproc

2015-11-04T03:02:27.990

0 投票する

1 に答える

1363 参照

apache-spark - groupBy で PySpark Yarn アプリケーションが失敗する

Google クラウドストレージから読み取った大量のデータ ( 2TB ) を処理するジョブを Yarn モードで実行しようとしています。

パイプラインは次のように要約できます。

10GBのデータで実行すると、問題なく完了します。ただし、完全なデータセットで実行すると、コンテナー内の次のログで常に失敗します。

マスターに接続して各操作を1つずつ起動して調べてみたところ、groupByで失敗するようです。また、ノードを追加してメモリと CPU の数をアップグレードすることでクラスターの再スケーリングを試みましたが、それでも同じ問題が発生します。

同じ仕様の 120 ノード + 1 マスター: 8 vCPU - 52 GB メモリ

同様の問題を抱えたスレッドを見つけようとしましたが成功しませんでした。ログがあまり明確ではないため、どのような情報を提供すればよいかわかりません。詳細についてはお気軽にお問い合わせください。

主キーはすべてのレコードに必要な値であり、フィルタなしのすべてのキーが必要です。これは約 60 万キーを表します。クラスターを大規模なものにスケーリングせずに、この操作を実行することは本当に可能ですか? 私は、databricks が 100 TB のデータ ( https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html ) で並べ替えを行ったことを読みましたが、これには大規模なシャッフルも含まれます。複数のインメモリバッファを 1 つのバッファに置き換えることで成功し、多くのディスク IO が発生しました。私のクラスター規模でそのような操作を実行することは可能ですか?

apache-spark pyspark google-cloud-dataproc

2015-11-04T16:39:02.520

0 投票する

1 に答える

2129 参照

google-cloud-dataproc - Hadoop FileSystem API を使用して Google クラウドストレージにアクセスする

私のマシンから、スキームcore-site.xmlを認識するgs://ように Hadoop を構成し、Hadoop ライブラリとして gcs-connector-1.2.8.jar を追加しました。実行hadoop fs -ls gs://mybucket/して、期待される結果を得ることができます。ただし、次を使用してJavaからアナログを実行しようとすると：

ではなくローカル HDFS のルートの下にファイルを取得しますgs://mybucket/が、それらのファイルにはgs://mybucket. fsを取得する前にconfを変更すると、conf.set("fs.default.name", "gs://mybucket");GCSでファイルを見ることができます。

私の質問は次のとおり
です。1.これは予想される動作ですか?
2. Google クラウドストレージクライアント API とは対照的に、この Hadoop FileSystem API を使用することに不利な点はありますか?

google-cloud-dataproc google-hadoop

2015-11-06T01:02:30.707

0 投票する

1 に答える

11890 参照

hadoop - Dataproc クラスタの自動セットアップ後の Yarn/Spark のメモリ割り当てが正しくない

Dataproc クラスタで Spark ジョブを実行しようとしていますが、Yarn が正しく構成されていないため、Spark が起動しません。

シェルから "spark-shell" を (ローカルでマスター上で) 実行するとき、およびローカルマシンから Web GUI および gcloud コマンドラインユーティリティを介してジョブをアップロードするときに、次のエラーが表示されます。

の値を変更しようとしまし/etc/hadoop/conf/yarn-site.xmlたが、何も変わりませんでした。そのファイルから構成を引き出すとは思わない。

複数のサイト (主にヨーロッパ) で複数のクラスターの組み合わせを試しましたが、これは低メモリバージョン (4 コア、15 GB メモリ) でしか機能しませんでした。

つまり、これは、yarn のデフォルトで許可されているメモリよりも高いメモリ用に構成されたノードでのみ発生する問題です。

hadoop google-cloud-platform google-cloud-dataproc

2015-11-08T21:37:10.700

0 投票する

2 に答える

4688 参照

apache-spark - Dataproc での処理が 9 時間、ローカルマシンでは 3 分と非常に遅い

ログから、182k 行 70MB あることがわかります。Dataproc で 182,000 行をトレーニングするには、70 MB のデータを読み込むのに 1.5 時間かかり、9 時間（15/11/14 01:58:28 に開始して 15/11/14 09:19:09 に終了）かかります。ローカルマシンで同じデータを読み込んで同じアルゴリズムを実行するのに 3 分かかります

DataProc ログ

データをローカルマシンにコピーしました
/li>
同じアルゴリズムを実行しました。ALS トレインステップの所要時間は約 3 分
/li>

ファーストラン

セカンドラン

DataProc クラスターには、それぞれ 104 GB (RAM) と 16 個の CPU を備えた 1 つのマスターと 3 つのスレーブがあります。

私のローカルマシンには 8GB (RAM) と 2 つの CPU 2.7GHz Core i5 があります。

apache-spark google-cloud-platform google-cloud-dataproc

2015-11-14T21:50:44.187

0 投票する

1 に答える

417 参照

apache-spark - pySpark フォールトトレラント構成

糸モードの大規模な Spark クラスターで長いジョブ (+ 3 時間) を実行しています。spark を実行している VM ワーカーは Google Cloud Dataproc でホストされており、そのほとんどは実行中に破棄できます (コストが低いプリエンプティブル VM)。

これが発生すると、破棄されたワーカーでタスクが失敗し、失敗したワーカーのコンテナーログに次のエラーが記録されるため、ジョブは失敗します。

1000 に設定spark.task.maxFailuresしてみましたが、これはあまり効果的ではないようです。ジョブが終了しても、タスクは自動的に再分散されないようで、この特定のワーカーに割り当てられたタスクの計算はロールするようです初期段階に戻ります。

応答しないエグゼキュータを単純に除外し、それらのタスクを再割り当てする、よりフォールトトレラントな構成を持つ方法はありますか?

要求があれば、ressourcemanager のログ、nodemanager、およびコンテナーのログを含めることもできますが、関連性はないと思います。

apache-spark google-cloud-dataproc

2015-11-18T15:43:17.500

0 投票する

1 に答える

842 参照

google-cloud-dataproc - Dataproc で Spark と Hadoop のジョブ履歴にアクセスするにはどうすればよいですか?

Google Cloud Dataprocで、Spark または Hadoop のジョブ履歴サーバーにアクセスするにはどうすればよいですか? ジョブを実行するときにジョブ履歴の詳細を確認できるようにしたいと考えています。

google-cloud-dataproc

2015-11-20T21:07:27.603

問題タブ [google-cloud-dataproc]

Reference