私はデータ ストリーミング用の apache flink に取り組んでいますが、いくつか質問があります。どんな助けでも大歓迎です。ありがとう。
1) タンブリング ウィンドウの作成に制限はありますか。たとえば、ユーザー ID ごとに 2 秒間のタンブリング ウィンドウを作成したい場合、たとえば 1,000 万を超えるユーザー ID がある場合、それは問題になります。(keyBy ユーザー ID を使用してから、timeWindow を 2 秒間作成しています)? これらのウィンドウは flink で内部的にどのように維持されますか?
2) ラウンド ロビン パーティショニングのリバランスを調べました。クラスターをセットアップしていて、ソースの並列処理が 1 で、リバランスを行った場合、パフォーマンスを向上させるためにマシン間でデータがシャッフルされるでしょうか? その場合、クラスタ内の他のノードにデータを転送するために使用する特定のポートはありますか?
3) 状態の維持に制限はありますか? 非常に大きくなる可能性のあるユーザー ID 関連のデータを維持する予定です。状態を維持するために rocks db を使用した flink について読みました。維持できるデータ量に制限があるかどうかを確認したいだけですか?
4) また、データ量が少ない場合、状態はどこで維持されますか? (JVM メモリで推測します) クラスターに複数のマシンがある場合、すべてのノードが現在の状態のバージョンを取得できますか?