問題タブ [google-hadoop]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

70 問題

0 投票する

1 に答える

312 参照

hadoop - Hadoop 用の Google Cloud コネクタが Pig で機能しない

HDFS 2.7.1.2.4 および Pig 0.15.0.2.4 (Hortonworks HDP 2.4) でHadoop を使用しており、Spark および Hadoop 用の Google Cloud Storage Connector (GitHub の bigdata-interop) を使用しようとしています。私が試してみると、正しく動作します。

しかし、Pigで（mapreduceモードで）次のことを試すと：

Pig は次のエラーで失敗します。

必要に応じて、GC コネクタのログを投稿できます。

Hame 誰かがこのコネクタで Pig を使用しましたか? どんな助けでも歓迎されます。

2016-04-13T16:40:21.390

0 投票する

1 に答える

1245 参照

apache-spark - 競合する DataProc Guava、Protobuf、および GRPC の依存関係を管理する方法

現在 DataProc 1.1 で提供されている GRPC (1.01)、Guava (19.0)、および Protobuf (3.0.0) の新しいバージョンに依存する Java ライブラリ (youtube/vitess) を使用する必要がある scala Spark ジョブに取り組んでいます。画像。

プロジェクトをローカルで実行し、maven でビルドすると、これらの依存関係の正しいバージョンが読み込まれ、ジョブは問題なく実行されます。ジョブを DataProc に送信する場合、これらのライブラリの DataProc バージョンが優先され、ジョブは解決できないクラス関数を参照します。

DataProc で Spark ジョブを送信するときに、依存関係の依存関係の適切なバージョンが確実に読み込まれるようにするための推奨される方法は何ですか? 私は、DataProc によって提供されているこれらのパッケージの古いバージョンを使用するために、このライブラリのコンポーネントを書き直す立場にありません。

apache-spark google-cloud-dataproc google-hadoop vitess

2016-11-09T00:12:47.690

0 投票する

3 に答える

10998 参照

apache-spark - 効率的な方法で BigQuery から Spark に読み込みますか?

BigQuery コネクタを使用してBigQueryからデータを読み取ると、最初にすべてのデータが Google Cloud Storage にコピーされることがわかりました。次に、このデータを並列に Spark に読み込みますが、大きなテーブルを読み込むと、データのコピー段階で非常に長い時間がかかります。BigQuery から Spark にデータを読み込むより効率的な方法はありますか?

別の質問: 2 つの段階で構成される BigQuery からの読み取り (GCS へのコピー、GCS からの並列読み取り)。ステージのコピーは Spark クラスターのサイズの影響を受けますか、それとも一定の時間がかかりますか?

apache-spark google-bigquery google-cloud-dataproc google-hadoop

2017-01-04T10:57:25.967

1 2 3 4 5 6 7 8 9 10

問題タブ [google-hadoop]

hadoop - Hadoop 用の Google Cloud コネクタが Pig で機能しない

apache-spark - 競合する DataProc Guava、Protobuf、および GRPC の依存関係を管理する方法

apache-spark - 効率的な方法で BigQuery から Spark に読み込みますか?

Reference