問題タブ [streamsets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - StreamSets Data Collector (SDC) を使用して Kafka トピックを作成することはできますか?
StreamSets Data Collector (SDC) Web ツールを使用して、ローカル システムから Kafka プロデューサーを介して Kafka にデータを転送するパイプラインを作成しています。ただし、データを保存するトピックを最初に手動で作成する必要があります。StreamSets を介してトピックを作成することは可能ですか?
hadoop - Stream Sets での JDBC コンシューマ ジョブのスケジューリング
JDBC コンシューマ ジョブを毎日午前 5 時に実行するようにスケジュールする必要があります。私が知る限り、午前 5 時にジョブを開始し、クエリ間隔を 24 時間にすると、ジョブを午前 5 時に実行できます。
しかし、最初のインスタンスを手動で開始せずに午前 5 時に開始するようにスケジュールする必要があります (午前 5 時に起床するのが面倒です:P) これを達成する方法はありますか?
cloudera-quickstart-vm - StreamSets アーキテクチャとは何ですか?
チュートリアルを行った後でも、アーキテクチャについてはよくわかりません。分散環境でストリームセットをスケーリングするにはどうすればよいですか? たとえば、入力データの速度が元から増加した場合、SDC がパフォーマンスの問題を引き起こさないようにするにはどうすればよいでしょうか? いくつのデーモンが実行されますか? マスター ワーカー アーキテクチャか、ピア ツー ピア アーキテクチャか?
複数のマシンで複数のデーモンが実行されている場合 (例: YARN で 1 つの NodeManager と一緒に 1 つの sdc)、データの集中ビュー (合計レコード数など) をどのように表示しますか?
また、Dataflow パフォーマンス マネージャーのアーキテクチャを教えてください。この製品にはどのすべてのデーモンがありますか?
streamsets - インストールされている場所以外のクラスター内の別のノードでストリームセット Web UI にアクセスすると、どのファイル システムが「参照」されますか?
ホスティングしているマシンのクラスターがあり、RPMドキュメントhadoop (MapR)
に従ってノードの 1 つ (node002 など) にストリームセットをインストールしています。ただし、別のノード node001 からの Web UI にアクセスしています。data collector
私の質問は、ファイル パス (オリジン ディレクトリなど) を指定するときに、Web UI がどのファイル システムを参照するのかということです。例えば。元のディレクトリを として配置した場合/home/myuser/mydata
、Web UI で作成されたパイプラインは node001 または node002 でそのディレクトリを探しますか? ストリームセットの使用は初めてなので、より詳細な回答をいただければ幸いです。ありがとう。
**最終的に私はこれを求めています。ドキュメントのチュートリアルに従おうとしているとき"FileNotFound"
にエラーが発生し、状況をデバッグしようとしているからです。"permission denied"