問題タブ [stream-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
stream-processing - Apache Apex アプリケーションを再起動するには?
apex documentationから、apache apex で起動されたアプリは、コマンドkill-app
&を使用して強制終了またはシャットダウンできることが明らかshutdown-app
です。
しかし、アプリケーションがオフ (シャットダウン/強制終了) になった場合、以前の状態から再起動するにはどうすればよいでしょうか?
apache-spark - スパーク ストリーミングで既存の PHP アプリケーションを移植する
私たちはphpに巨大な既存のアプリケーションを持っています
- ログファイルを受け入れる
- すべてのデータベース、メモリ内ストア リソースを初期化します
- すべての行を処理します
- 出力ファイルのセットを作成します
上記の処理は、入力ファイルごとに行われます。入力ファイルは、kafka コンシューマーによって書き込まれます。すべてのコードをJavaに移植しないことで、このアプリケーションをスパークストリーミングに適合させることは可能ですか? たとえば、次の方法で
- kafka トピックからメッセージを取得する
- このメッセージを Spark Streaming に渡します
- Spark ストリーミングは何らかの方法でレガシー アプリとやり取りし、出力を生成します
- スパークはその後、出力をkafkaに再度書き込みます
何を言ってもレベルが高すぎる。Javaで既存のアプリを再コーディングしないことでこれを行う可能性があるかどうかを知りたいだけですか? そして、誰かがこれをどのように行うことができるかを大まかに教えてもらえますか?
java - イベント処理フレームワークの推奨事項
イベント処理ドメインは初めてです。私は自分の要件を満たす Java ベースのイベント処理フレームワークを探しています。私は無数のフレームワーク (Apache Storm、Apache Kafka、RabbitMQ などの従来のイベント ブローカー) に関するドキュメントとチュートリアルの迷路を通り抜けてきました。私は賢明ではありません。
私の要件は次のとおりです。プッシュされるイベントのソース (使用状況の追跡など) があります。私は彼らと一緒に次のことをしたいと思っています:
- バケット化(顧客ごとなど、異なるバケットに分割)
- バケット化されたすべてのイベントをバッチとしてデータベースに挿入します。
- なんらかの負荷分散/イベントの優先順位付けを実行します。たとえば、優先度の低い顧客に大きな反対を押してほしくありません。少数のイベントで優先度の高い顧客を飢えさせるイベントの数。
イベントの順序についてはあまり気にしませんが、これらのシステムの高可用性を確保したいと考えています。
開始するためのいくつかの指針を探しています。テクノロジ インフラストラクチャには障害はありませんが、Java ベースの何かです。
java - Apache Heron スケジューラーのデバッグ
Twitter は、Apache Storm と比較した Apache Heron の最大の利点の 1 つは、debug-ability
複数のタスクを 1 つの JMV にバンドルするのではなく、各スパウト/ボルト タスクを 1 つの Heron インスタンス (JVM プロセス) に移動することによって達成されると主張しています (Storm がかつて行っていた方法)。それ)。
このアプローチは、トポロジのデバッグに非常に役立ちます。しかし、私の質問は、スケジューラやリソース管理部分などのヘロンのコア部分をデバッグするにはどうすればよいかということです。ログ出力/印刷出力以外にそれを行う方法はありますか? これは本当に時間とエネルギーを消費するプロセスだからです。IDE (IntelliJ など) のようなツールを使用していくつかのチェックポイントを設定し、ヘロンでタスクをスケジュールするプロセス全体をデバッグする方法はありますか?
前もって感謝します。
apache-spark - 実際のミニバッチとリアルタイム ストリーミングの違いは何ですか (理論ではありません)?
実際のミニバッチとリアルタイム ストリーミングの違いは何ですか (理論ではありません)? 理論的には、ミニバッチは特定の時間枠でバッチ処理するものであると理解していますが、リアルタイムストリーミングはデータが到着したときに何かを行うのに似ていますが、私の最大の疑問は、イプシロン時間枠 (1 ミリ秒など) でミニバッチを使用しない理由です。あるソリューションが他のソリューションよりも効果的である理由を知りたいですか?
私は最近、ミニバッチ (Apache Spark) が不正検出に使用され、リアルタイム ストリーミング (Apache Flink) が不正防止に使用されている例を見つけました。ミニバッチは不正防止の効果的なソリューションではないというコメントもありました (トランザクションが発生したときに発生しないようにすることが目標であるため)。1 ミリ秒のレイテンシでミニバッチを実行することが効果的でないのはなぜですか? バッチ処理は、ディスクまたはネットワークへのデータが実際にバッファリングされる OS およびカーネル TCP/IP スタックを含むあらゆる場所で使用される手法です。
apache-flink - Flink - 演算子グラフの構築
みなさんおはようございます、
私はすでに Apache Storm を使用してトポロジを構築しましたが、それらが公開する API の良いところは、グラフ トポロジ内のオペレータを「手動で」接続できることです。
たとえば、ループを作成できます。
Flink で同じ「表現力」を達成するためのベスト プラクティスがあるかどうか疑問に思っていました。
どうもありがとう!
apache-storm - heron トポロジーは非アクティブ化後も実行を続ける
私は現在、リソース管理とスケジューリングの研究のために、Heron と Apache Storm に取り組んでいます。
トポロジーを Heron に送信した後、それらは実行を開始し、リソースを消費することに気付きましたが、非アクティブ化した後もバックグラウンドでまだ実行されており、CPU と RAM を 100% 使用しているようです! 何か不足していますか?私が理解している方法とヘロンのドキュメントに基づいて、トポロジを非アクティブ化するとそれらが停止し、新しいタプルの処理が停止するはずです。
トポロジを非アクティブにします。非アクティブ化されると、トポロジは処理を停止しますが、クラスター内で実行されたままになります。
しかし、非アクティブ化後にheron-uiをチェックすると、新しいタプルをまだ処理しています。これは、発行数が変化し続けるためです! しかし、私がそれらを殺すと、すべてが正常に戻ります! それは正常ですか?そうでない場合、何が問題なのですか?
apache-flink - Flink のオペレーター間で状態を共有する
Flink でオペレーター間で状態を共有することは可能でしょうか。
たとえば、オペレーターでキーによるパーティション分割があり、(何らかの理由で) パーティションA
内のパーティションの状態が必要であるとC
します (図 1.a)、またはC
下流のオペレーターでオペレーターの状態が必要であるF
(図 1 . .b)。
broadcast
すべてのパーティションに記録できることはわかっています。したがって、オペレーターの内部状態をレコード内に含めると、内部状態を下流のオペレーターと共有できます。
ただし、これは単に状態をop1
具体的に要求するのではなく、コストのかかる操作になる可能性がありop2
ます。
クエリ可能な状態に関する最近の開発は、この概念に向かって進んでいますか?それとも、外部ユーザーがトポロジの内部状態をクエリできるようにするためだけのものですか?
あなたの洞察を前もってありがとう