問題タブ [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop 用の Google Cloud コネクタが Pig で機能しない
HDFS 2.7.1.2.4 および Pig 0.15.0.2.4 (Hortonworks HDP 2.4) でHadoop を使用しており、Spark および Hadoop 用の Google Cloud Storage Connector (GitHub の bigdata-interop) を使用しようとしています。私が試してみると、正しく動作します。
しかし、Pigで(mapreduceモードで)次のことを試すと:
Pig は次のエラーで失敗します。
必要に応じて、GC コネクタのログを投稿できます。
Hame 誰かがこのコネクタで Pig を使用しましたか? どんな助けでも歓迎されます。
apache-spark - 競合する DataProc Guava、Protobuf、および GRPC の依存関係を管理する方法
現在 DataProc 1.1 で提供されている GRPC (1.01)、Guava (19.0)、および Protobuf (3.0.0) の新しいバージョンに依存する Java ライブラリ (youtube/vitess) を使用する必要がある scala Spark ジョブに取り組んでいます。画像。
プロジェクトをローカルで実行し、maven でビルドすると、これらの依存関係の正しいバージョンが読み込まれ、ジョブは問題なく実行されます。ジョブを DataProc に送信する場合、これらのライブラリの DataProc バージョンが優先され、ジョブは解決できないクラス関数を参照します。
DataProc で Spark ジョブを送信するときに、依存関係の依存関係の適切なバージョンが確実に読み込まれるようにするための推奨される方法は何ですか? 私は、DataProc によって提供されているこれらのパッケージの古いバージョンを使用するために、このライブラリのコンポーネントを書き直す立場にありません。
apache-spark - 効率的な方法で BigQuery から Spark に読み込みますか?
BigQuery コネクタを使用してBigQueryからデータを読み取ると、最初にすべてのデータが Google Cloud Storage にコピーされることがわかりました。次に、このデータを並列に Spark に読み込みますが、大きなテーブルを読み込むと、データのコピー段階で非常に長い時間がかかります。BigQuery から Spark にデータを読み込むより効率的な方法はありますか?
別の質問: 2 つの段階で構成される BigQuery からの読み取り (GCS へのコピー、GCS からの並列読み取り)。ステージのコピーは Spark クラスターのサイズの影響を受けますか、それとも一定の時間がかかりますか?