問題タブ [apache-beam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
video-processing - Apache ビームを使用したビデオ処理用の API
現在Apache Beam
、柔軟なストリーム処理用にリリースされていることがわかります。ビデオ ストリームを処理するための API を探していますが、見つかりませんでした。/を使用API
したビデオ処理について誰でも提案できますか。Apache Beam
Google Dataflow
ありがとう。
python - Google Dataflow の PCollection から要素のリストを取得し、それをパイプラインで使用して書き込み変換をループする方法は?
Python SDK で Google Cloud Dataflow を使用しています。
私はしたいと思います :
- マスター PCollection から一意の日付のリストを取得する
- そのリストの日付をループして、フィルター処理された PCollection (それぞれに一意の日付を持つ) を作成し、フィルター処理された各 PCollection を BigQuery の時分割テーブルのパーティションに書き込みます。
どうすればそのリストを入手できますか? 次の結合変換の後、ListPCollectionView オブジェクトを作成しましたが、そのオブジェクトを反復できません。
私はそれをすべて間違っていますか?それを行う最善の方法は何ですか?
ありがとう。
google-cloud-dataflow - デフォルトのトリガーを使用してウィンドウで無制限のデータを消費する
Pub/Subトピック + サブスクリプションがあり、 Dataflowのサブスクリプションから無制限のデータを消費して集約したいと考えています。固定ウィンドウを使用して、集計を BigQuery に書き込みます。
読み取りと書き込み (ウィンドウ処理と集計なし) は正常に機能します。しかし、(各ウィンドウ内の要素をカウントするために) データを固定ウィンドウにパイプすると、ウィンドウは決してトリガーされません。したがって、集計は書き込まれません。
これが私のWord Publisherです(例のkinglear.txtを入力ファイルとして使用しています):
これが私のウィンドウ付きワードカウンターです:
デフォルトのトリガーを使用してウィンドウがトリガーされないように見えるため、上記のサブスクライバーは機能しません。ただし、トリガーを手動で定義すると、コードが機能し、カウントが BigQuery に書き込まれます。
可能であれば、カスタム トリガーを指定することは避けたいと思います。
質問:
- ソリューションが Dataflow のデフォルト トリガーで機能しないのはなぜですか?
- パブリッシャーまたはサブスクライバーを変更して、デフォルトのトリガーを使用してウィンドウをトリガーするにはどうすればよいですか?
google-cloud-dataflow - パッケージ com.google.cloud.dataflow.sdk が見つかりません
Maven から実行すると、Dataflow Java コードがコンパイル/実行を停止しました:
google-cloud-dataflow - apache_beam.runners.dataflow_runner.DataflowRuntimeException: データフロー パイプラインが失敗しました:
Cloud Shell で Google Cloud プロジェクトをセットアップし、このチュートリアル スクリプトを実行しようとしましたhttps://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/flowers/sample.sh
このエラーが発生しました:
GoogleCloud Dataflow のエラー ログから、どこが間違っているかの手がかりを得ることができませんでした
トラブルシューティングの回答とヘルプに感謝します。
google-cloud-platform - timestampLabel の割り当て時に Dataflow ジョブの PubSub リソースのセットアップが失敗する
PubSub からの読み取り時に使用を開始するようにジョブを変更した後timestampLabel
、次のエラーでジョブを開始しようとするたびにリソースのセットアップが壊れているようです。
whereproject-name
とsubscription-name
は、読み込もうとしているプロジェクトと PubSub サブスクリプションの実際の値を表します。timestampLabel
メッセージ エントリにアタッチしようとする前は、ジョブは正しく機能しており、指定された PubSub サブスクリプションからメッセージを消費していました。これは、API/ネットワーク設定に問題がないことを意味します。
また、ペイロードに関する 2 つの警告に気付きました
しかし、ワーカー ログにはそれ以上の情報はありません。timestampLabel
ジョブが設定されている数秒間、パイプラインの最初のステップで設定されていることがわかります。残念ながら、このエラーに関する他のケースやドキュメントは見つかりません。