チュートリアルを行った後でも、アーキテクチャについてはよくわかりません。分散環境でストリームセットをスケーリングするにはどうすればよいですか? たとえば、入力データの速度が元から増加した場合、SDC がパフォーマンスの問題を引き起こさないようにするにはどうすればよいでしょうか? いくつのデーモンが実行されますか? マスター ワーカー アーキテクチャか、ピア ツー ピア アーキテクチャか?
複数のマシンで複数のデーモンが実行されている場合 (例: YARN で 1 つの NodeManager と一緒に 1 つの sdc)、データの集中ビュー (合計レコード数など) をどのように表示しますか?
また、Dataflow パフォーマンス マネージャーのアーキテクチャを教えてください。この製品にはどのすべてのデーモンがありますか?