問題タブ [google-cloud-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
665 参照

google-bigquery - Cloud Dataflow の「副入力」は BigQuery ビューからの読み取りをサポートしていますか?

副入力を直接 BigQuery テーブルではなく、BigQuery ビューに向けようとしました。エラーは発生しませんが、単に 0 行を返します。View は BigQuery 内で正常に動作します。

たとえば、1 行だけのテーブル「types_test」を参照するビューがあるとします。

ここに画像の説明を入力

BigQuery では、問題なく動作します。

ここに画像の説明を入力

ただし、ビューを Dataflow の副入力として使用すると、0 行が返されます。

副入力は BigQuery のビューをサポートしていますか? または、副入力にビューを使用するために何か他のことをする必要がありますか?

0 投票する
1 に答える
658 参照

google-cloud-dataflow - Cloud Dataflow でインスタンス リージョンを変更するには?

gcp プロジェクトで DataflowJavaSDK WordCount の例を実行しようとしましたが、次のメッセージが表示されます。

ワークフローが失敗しました。原因: (638fd23bd03812d4): 内部エラー: ワークフローが失敗しました。dataflow-feedback@google.com までご連絡ください。原因: (e52def24e835d7ad): リージョン us-central1 でプロジェクト my-project のワークフローを実行するためのクォータが不足しています。3 つのインスタンスには 12 個の CPU、3000 ディスク GB、0 SSD ディスク GB、3 個の使用中の IP アドレスが必要です、利用可能な 9 つの CPU、2770 ディスク GB、1024 SSD ディスク GB、12 の使用中の IP アドレス。

サンプルを実行できる十分な割り当てがあるため、us-central1 を europe-west1 に変更したいと考えています。

地域の変更は可能ですか?

(下手な英語ですみません…)

0 投票する
1 に答える
725 参照

maven - Maven が Google Cloud Dataflow SDK をコンパイルできない

Google Cloud Dataflow SDK をコンパイルできません。「mvn install」を実行するとエラーが発生します。

0 投票する
2 に答える
87 参照

google-cloud-dataflow - Can I compare the serialized representation of records in unittests?

In the unittest for my DoFo, is it possible to assert the output matches the expected output by comparing the serialized representations of the records?

I've defined a record which uses a default avro coder e.g

I'm writing a unittest for a DoFn that uses DoFnTester to produce a list of JobLogMessage's e.g.

I'd like to verify that outputs matches the expected outputs. However if I just use assertEquals I think that will use the equals method which won't correctly evaluate equality unless I explicitly overload equals in JobLogMessage.

What I'd like to do is compare the expected and actual JobLogMessage's by comparing the serialized byte representations produced by AvroCoder. Does Dataflow produce any convenience methods for this?

0 投票する
1 に答える
540 参照

bigdata - Google Cloud Dataflow の学習を開始するには?

私はコンピューター工学を勉強しています。そして、Google Cloud Dataflow を学習しようと考えています。

ですから、UG の学生として Google Cloud Dataflow を学ぶのは良いことですか?また、ビッグデータや Hadoop の経験もあまりありません。

はいの場合、どうすれば学習を開始できますか?

0 投票する
1 に答える
429 参照

google-cloud-dataflow - GCS ファイルパターンを一度にフルファイルで処理するには?

ファイルの (GCS) バケットを処理する必要があります。各ファイルは圧縮され、1 つの複数行の JSON レコードが含まれています。また、処理中のファイルの名前は重要であり、変換内でそれを知る必要があります。

ドキュメントの例から始めると、TextIO は非常によく似ていますが、各ファイルを 1 行ずつ処理するように設計されているようで、ファイル全体を一度に読み取ることはできません。また、処理中のファイル名を取得する方法がわかりませんか?

カスタム IO リーダーなどを作成する必要があるように見えますか? 開始するのに最適な場所に関するヒントはありますか?

0 投票する
1 に答える
1006 参照

google-cloud-dataflow - Dataflow 内で GCS ファイルを処理する最良の方法は?

一致した GCS ファイル名の PCollection があり、それぞれに 1 つの圧縮された JSON BLOB が含まれています。ファイル全体を読み取り、解凍 (Gzip 形式) し、JSON でデコードする最良の方法は何ですか?

  • TextIO は非常に近いですが、1 行ごとにデータを読み取ります。
  • GCS API は、ファイル全体を読み取る方法の例を提供しますが、解凍を処理しないため、多くのコア機能を再実装する必要があります。

有利なスタートを切ることができる既存の API やサンプルはありますか? これはかなり一般的な使用例のようです。

0 投票する
1 に答える
133 参照

google-cloud-dataflow - ワーカー プールのスケール ダウン時のエラー:「アクティブなシャッフル データを失うことなくサイズを縮小できません」

最新の SDK バージョン0.3.150326に更新したところ、次のエラーが原因でジョブが失敗しました。

(d0f58ccaf368cf1f): ワークフローが失敗しました。原因: (539037ea87656484): アクティブなシャッフル データを失うことなくサイズを縮小することはできません。古いサイズ = 10、新しいサイズ = 8。

ジョブ ID: 2015-04-02_21_26_53-11930390736602232537

再現できませんでしたが、既知の問題かどうかを尋ねるべきだと思いましたか?

docsを見ると、自動スケーリングは現在のところ「実験的」に過ぎないように見えますが、これは Cloud Dataflow のコア機能であり、完全にサポートされるべきであると想像していたでしょう。