問題タブ [apache-beam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2114 参照

google-cloud-pubsub - Google Pub/Sub から読み取る Apache Beam パイプラインを作成する

Google pub/sub から文を読み取り、その単語を Bigquery テーブルに書き込む apache-beam を使用してストリーム パイプラインを作成しようとしています。

私は0.6.0apache-beamバージョンを使用しています。

例に従って、私はこれを作りました:

私は近くにエラーがあります:

apply(ParDo.of(new ExtractWords()))

前のものは aではなくapplya を返すためStringObject

問題は から返される型だと思いますPubsubIO.read().topic(options.getPubsubTopic())。タイプはPTransform<PBegin, PCollection<T>>代わりにPTransform<PBegin, PCollection<String>>

apache-beam を使用して Google pub/sub から読み取る正しい方法はどれですか?

0 投票する
2 に答える
2808 参照

java - Apache Beam ストリーミング データのバッファリングとフラッシュ

最初の実行で大量のデータを処理する必要があるストリーミング ジョブがあります。DoFn の 1 つは、バッチ リクエストをサポートするリモート サービスを呼び出すため、境界付きコレクションを操作する場合は、次のアプローチを使用します。

無制限のコレクションで同じアプローチを使用できるように、データをウィンドウ化する方法はありますか?

私は次のことを試しました:

しかしstartBundlefinishBundleすべての要素に対して呼び出されます。RxJava (2 分ウィンドウまたは 100 要素バンドル) のようなものを持つ可能性はありますか:

0 投票する
2 に答える
3186 参照

java - DataflowRunner を使用しようとしたときの ClassNotFound 例外

Apache Beam 0.6.0 を使用して GCP で Dataflow ジョブを起動しようとしています。「mvn:execjava」を使用してジョブを起動できないため、shade プラグインを使用して uber jar をコンパイルしています。私はこの依存関係を含めています:

次の例外が発生します。

他に何か不足していますか?