現在、データフロー プロセスがありますがGroupByKey
、DoPar
group-by がキーごとに取得する値が多すぎるため、これに対する適切な解決策があるかどうかを知りたいと考えていました。私が言えることから、ウィンドウごとに値の最大数を設定する方法はありません。
現在、次の 3 つのオプションを検討しています。
- より小さなウィンドウ - イベントが時間内にクラスター化される可能性があるため、これにはまだ問題があると考えられます。
- キーを分割するためにすべてのキーにランダムな値を追加する - これも理想的ではありません。これは、入ってくるイベントが少なくなると、キーごとの値が少なすぎるためです。また、イベントの数が指数関数的に増加する場合、パーティションの数を調整することはできません。
- 派手なトリガーまたはコンバイナーの使用 - おそらく最良の解決策ですが、これを行う方法がわかりません。
これを行うための標準的な方法またはベストプラクティスはありますか?