問題タブ [apache-beam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
199 参照

video-processing - Apache ビームを使用したビデオ処理用の API

現在Apache Beam、柔軟なストリーム処理用にリリースされていることがわかります。ビデオ ストリームを処理するための API を探していますが、見つかりませんでした。/を使用APIしたビデオ処理について誰でも提案できますか。Apache BeamGoogle Dataflow

ありがとう。

0 投票する
1 に答える
7393 参照

python - Google Dataflow の PCollection から要素のリストを取得し、それをパイプラインで使用して書き込み変換をループする方法は?

Python SDK で Google Cloud Dataflow を使用しています。

私はしたいと思います :

  • マスター PCollection から一意の日付のリストを取得する
  • そのリストの日付をループして、フィルター処理された PCollection (それぞれに一意の日付を持つ) を作成し、フィルター処理された各 PCollection を BigQuery の時分割テーブルのパーティションに書き込みます。

どうすればそのリストを入手できますか? 次の結合変換の後、ListPCollectionView オブジェクトを作成しましたが、そのオブジェクトを反復できません。

私はそれをすべて間違っていますか?それを行う最善の方法は何ですか?

ありがとう。

0 投票する
1 に答える
1087 参照

google-cloud-dataflow - デフォルトのトリガーを使用してウィンドウで無制限のデータを消費する

Pub/Subトピック + サブスクリプションがあり、 Dataflowのサブスクリプションから無制限のデータを消費して集約したいと考えています。固定ウィンドウを使用して、集計を BigQuery に書き込みます。

読み取りと書き込み (ウィンドウ処理と集計なし) は正常に機能します。しかし、(各ウィンドウ内の要素をカウントするために) データを固定ウィンドウにパイプすると、ウィンドウは決してトリガーされません。したがって、集計は書き込まれません。

これが私のWord Publisherです(例のkinglear.txtを入力ファイルとして使用しています):

これが私のウィンドウ付きワードカウンターです:

デフォルトのトリガーを使用してウィンドウがトリガーされないように見えるため、上記のサブスクライバーは機能しません。ただし、トリガーを手動で定義すると、コードが機能し、カウントが BigQuery に書き込まれます。

可能であれば、カスタム トリガーを指定することは避けたいと思います。

質問:

  1. ソリューションが Dataflow のデフォルト トリガーで機能しないのはなぜですか?
  2. パブリッシャーまたはサブスクライバーを変更して、デフォルトのトリガーを使用してウィンドウをトリガーするにはどうすればよいですか?
0 投票する
1 に答える
2075 参照

google-cloud-dataflow - パッケージ com.google.cloud.dataflow.sdk が見つかりません

Maven から実行すると、Dataflow Java コードがコンパイル/実行を停止しました:

0 投票する
1 に答える
544 参照

google-cloud-dataflow - apache_beam.runners.dataflow_runner.DataflowRuntimeException: データフロー パイプラインが失敗しました:

Cloud Shell で Google Cloud プロジェクトをセットアップし、このチュートリアル スクリプトを実行しようとしましたhttps://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/flowers/sample.sh

このエラーが発生しました:

GoogleCloud Dataflow のエラー ログから、どこが間違っているかの手がかりを得ることができませんでした

トラブルシューティングの回答とヘルプに感謝します。

0 投票する
1 に答える
466 参照

google-cloud-platform - timestampLabel の割り当て時に Dataflow ジョブの PubSub リソースのセットアップが失敗する

PubSub からの読み取り時に使用を開始するようにジョブを変更した後timestampLabel、次のエラーでジョブを開始しようとするたびにリソースのセットアップが壊れているようです。

whereproject-namesubscription-nameは、読み込もうとしているプロジェクトと PubSub サブスクリプションの実際の値を表します。timestampLabelメッセージ エントリにアタッチしようとする前は、ジョブは正しく機能しており、指定された PubSub サブスクリプションからメッセージを消費していました。これは、API/ネットワーク設定に問題がないことを意味します。

また、ペイロードに関する 2 つの警告に気付きました

しかし、ワーカー ログにはそれ以上の情報はありません。timestampLabelジョブが設定されている数秒間、パイプラインの最初のステップで設定されていることがわかります。残念ながら、このエラーに関する他のケースやドキュメントは見つかりません。