3

チュートリアルを行った後でも、アーキテクチャについてはよくわかりません。分散環境でストリームセットをスケーリングするにはどうすればよいですか? たとえば、入力データの速度が元から増加した場合、SDC がパフォーマンスの問題を引き起こさないようにするにはどうすればよいでしょうか? いくつのデーモンが実行されますか? マスター ワーカー アーキテクチャか、ピア ツー ピア アーキテクチャか?

複数のマシンで複数のデーモンが実行されている場合 (例: YARN で 1 つの NodeManager と一緒に 1 つの sdc)、データの集中ビュー (合計レコード数など) をどのように表示しますか?

また、Dataflow パフォーマンス マネージャーのアーキテクチャを教えてください。この製品にはどのすべてのデーモンがありますか?

4

1 に答える 1

3

StreamSets Data Collector (SDC) は、入力データを分割することによってスケーリングします。場合によっては、これを自動的に行うことができます。たとえば、クラスター バッチ モードは Hadoop / MapR クラスターで SDC を MapReduce ジョブとして実行し、Hadoop FS / MapR FS データを読み取りますが、クラスター ストリーミング モードは Kafka パーティションを活用し、SDC を Spark ストリーミングとして実行します。 Kafka パーティションと同じ数のパイプライン インスタンスを実行するアプリケーション。

その他の場合、StreamSet はマルチスレッド化によってスケーリングできます。たとえば、HTTP サーバーJDBC マルチテーブル コンシューマーのオリジンは、複数のパイプライン インスタンスを別々のスレッドで実行します。

いずれの場合も、Dataflow Performance Manager (DPM) を使用すると、合計レコード数を含むデータを一元的に表示できます。

于 2017-12-08T19:24:28.083 に答える