1

Python apache-beam で記述されたパイプラインがあります。800,000 のタイムスタンプ付きデータを、1 秒ごとにオーバーラップする 2 秒のウィンドウにウィンドウ化します。私の要素には異なるキーがあるかもしれません。

groupBy を実行すると、完了するまでに 3 時間かかります。10 個のワーカーを使用してクラウド データフローにデプロイされています。ワーカーの数を増やしても、処理速度が大幅に向上することはありません。この変換がパイプラインのボトルネックになっているのはなぜですか?

4

1 に答える 1