問題タブ [apache-beam]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-pubsub - Google Pub/Sub から読み取る Apache Beam パイプラインを作成する
Google pub/sub から文を読み取り、その単語を Bigquery テーブルに書き込む apache-beam を使用してストリーム パイプラインを作成しようとしています。
私は0.6.0
apache-beamバージョンを使用しています。
例に従って、私はこれを作りました:
私は近くにエラーがあります:
apply(ParDo.of(new ExtractWords()))
前のものは aではなくapply
a を返すためString
Object
問題は から返される型だと思いますPubsubIO.read().topic(options.getPubsubTopic())
。タイプはPTransform<PBegin, PCollection<T>>
代わりにPTransform<PBegin, PCollection<String>>
apache-beam を使用して Google pub/sub から読み取る正しい方法はどれですか?
java - Apache Beam ストリーミング データのバッファリングとフラッシュ
最初の実行で大量のデータを処理する必要があるストリーミング ジョブがあります。DoFn の 1 つは、バッチ リクエストをサポートするリモート サービスを呼び出すため、境界付きコレクションを操作する場合は、次のアプローチを使用します。
無制限のコレクションで同じアプローチを使用できるように、データをウィンドウ化する方法はありますか?
私は次のことを試しました:
しかしstartBundle
、finishBundle
すべての要素に対して呼び出されます。RxJava (2 分ウィンドウまたは 100 要素バンドル) のようなものを持つ可能性はありますか:
java - DataflowRunner を使用しようとしたときの ClassNotFound 例外
Apache Beam 0.6.0 を使用して GCP で Dataflow ジョブを起動しようとしています。「mvn:execjava」を使用してジョブを起動できないため、shade プラグインを使用して uber jar をコンパイルしています。私はこの依存関係を含めています:
次の例外が発生します。
他に何か不足していますか?