問題タブ [flink-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - kafka -> flink - パフォーマンスの問題
~30K メッセージ/秒を生成するいくつかの kafka トピックを見ています。これらの 1 つを読み取り、少し (5 秒のウィンドウ) を集約し、(最終的に) DB に書き込むための flink トポロジ設定があります。
トポロジーを実行し、読み取り -> 集約ステップ以外をすべて削除すると、 1 分あたり最大30K メッセージしか取得できません。バックプレッシャーが発生する場所はどこにもありません。
私は何を間違っていますか?
編集:
- トピックスペースについては何も変更できません。各トピックには 1 つのパーティションがあり、何百ものパーティションがあります。
- 各メッセージは、平均 2 ~ 3Kb の圧縮されたリサイクル オブジェクトです。
~1.5 MB/秒しか取得できないようです。v 言及された 100MB/s には近くありません。
現在のコード パス:
java - Flink - スループットを最大化するためのジョブの構造化
4 種類のカフカ トピックと、各種類の 65 のトピックがあります。目標は、データに対していくつかの単純なウィンドウ集約を行い、それを DB に書き込むことです。
トポロジは次のようになります。
kafka -> window -> reduce -> db write
このミックスのどこかで、ユニオンをしたい/する必要があります-または、おそらくいくつか(毎回組み合わせるトピックの数によって異なります)。
トピック内のデータ フローは、1 分間に 10,000 ~ >200,000 メッセージの範囲です。
ノードあたり 30 コアの 4 ノード フリンク クラスターがあります。これらのトポロジを構築して負荷を分散するにはどうすればよいですか?
apache-flink - kafka ソース ストリーミングのイベント時間枠
Kafka サーバーにトピックがあります。プログラムでは、このトピックをストリームとして読み取り、イベント タイムスタンプを割り当てます。次に、このストリームに対してウィンドウ操作を行います。しかし、プログラムは機能しません。デバッグ後、WindowOperatorのprocessWatermarkメソッドが実行されていないようです。これが私のコードです。
なぜこれが起こったのですか?「assignTimestamps(timestampExtractor)」の前に「keyBy(keySelector)」を追加すると、プログラムは機能します。誰でも理由を説明できますか?
apache-flink - Flink streaming event time window ordering
I'm running into some troubles understanding the semantics around event time windowing. The following program generates some tuples with timestamps that are used as event time and does a simple window aggregation. I would expect the output to be in the same order as the input, but the output is ordered differently. Why is the output out of order with respect to event time?
The input:
Result:
twitter - Flink ストリーミング Twitter の例が機能しない
Twitter で Apache Flink ストリーミングを使用する方法を示す公式の例を実行しようとしています: https://github.com/apache/flink/tree/master/flink-streaming-examples/src/main/java/org/apache /フリンク/ストリーミング/例/ツイッター
properties.file へのパスを指定しない場合、TwitterStreamData.java が使用されます。「つぶやきみたいなデータ」でOKです。しかし、(正しいプロパティ ファイルを提供して) 実際のツイートを受信したい場合は、実行が停止して待機します (例外はスローされません)。
コードのデバッグ後、実行が停止して待機する場所を見つけました。
プログラムは行まで実行されます
そして待っています。
他の例 (apache flink を使用しないツイートのストリーミング) で使用したため、プロパティ ファイルは問題ありません。
apache-kafka - FlinkKafkaConsumer082 auto.offset.reset 設定が機能しない?
Kafka のトピックからデータを読み取る Flink ストリーミング プログラムがあります。プログラムでは、auto.offset.reset が「最小」に設定されています。IDE/Intellij-IDEA でテストすると、プログラムは常にトピックの先頭からデータを読み取ることができました。次に、flink/kafka クラスターをセットアップし、いくつかのデータを kafka トピックに生成しました。初めてストリーミング ジョブを実行すると、トピックの先頭からデータを読み取ることができました。しかし、その後、ストリーミング ジョブを停止して再度実行すると、トピックの最初からデータが読み取られません。プログラムが常にトピックの先頭からデータを読み取るようにするにはどうすればよいですか?
apache-flink - Flinkストリーミングで空のウィンドウで関数を実行するには?
単純なカフカ ストリームからキー付きウィンドウごとのイベント数を計算する Flink プログラムを作成しました。私は素晴らしく、速く、正確に働きます。ソースが停止したら、0
各ウィンドウで計算結果を取得したいのですが、結果が送信されません。関数は実行されません。これは、Flink の遅延動作のせいだと思います。
推奨事項はありますか?