cloudera-quickstart-vm - StreamSets アーキテクチャとは何ですか?

Question

チュートリアルを行った後でも、アーキテクチャについてはよくわかりません。分散環境でストリームセットをスケーリングするにはどうすればよいですか? たとえば、入力データの速度が元から増加した場合、SDC がパフォーマンスの問題を引き起こさないようにするにはどうすればよいでしょうか? いくつのデーモンが実行されますか? マスターワーカーアーキテクチャか、ピアツーピアアーキテクチャか?

複数のマシンで複数のデーモンが実行されている場合 (例: YARN で 1 つの NodeManager と一緒に 1 つの sdc)、データの集中ビュー (合計レコード数など) をどのように表示しますか?

また、Dataflow パフォーマンスマネージャーのアーキテクチャを教えてください。この製品にはどのすべてのデーモンがありますか?

score 3 · Accepted Answer

StreamSets Data Collector (SDC) は、入力データを分割することによってスケーリングします。場合によっては、これを自動的に行うことができます。たとえば、クラスターバッチモードは Hadoop / MapR クラスターで SDC を MapReduce ジョブとして実行し、Hadoop FS / MapR FS データを読み取りますが、クラスターストリーミングモードは Kafka パーティションを活用し、SDC を Spark ストリーミングとして実行します。 Kafka パーティションと同じ数のパイプラインインスタンスを実行するアプリケーション。

その他の場合、StreamSet はマルチスレッド化によってスケーリングできます。たとえば、HTTP サーバーとJDBC マルチテーブルコンシューマーのオリジンは、複数のパイプラインインスタンスを別々のスレッドで実行します。

いずれの場合も、Dataflow Performance Manager (DPM) を使用すると、合計レコード数を含むデータを一元的に表示できます。

cloudera-quickstart-vm - StreamSets アーキテクチャとは何ですか?

1 に答える 1

Related

Reference