問題タブ [apache-samza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Samza が実行されない
Apache Samza および Kafka 環境をセットアップしようとしています。モジュールを実行しようとすると、いくつかの問題が発生します。
Kafka は正しく動作していますが、Samza を動作させることはできません。2 つの Debian Jeesy AMD64 ボックスをインストールし、Samza のドキュメントの指示に従いました。
Samza で提供されているスクリプトを使用して Yarn AppMaster を起動するスクリプトを起動しようとすると、次のようになります。
次のエラーが表示されます。
run-job.sh スクリプトを使用してテスト ジョブを実行しようとすると、
org.apache.samza.job.JobRunner クラスを参照すると、同様のエラーが発生します。
Java の構成に問題があると考えていますが、ヘルプやリファレンスがあまり見つかりません。
私が間違っていることを誰かが知っていますか?
rpc - Samza で Storm DRPC に似たものを実装するにはどうすればよいですか?
私はいくつかのタスクを含む samza ジョブを持っています。それぞれのタスクは、組み込みストアに何らかの状態を保持しています。このストアを公開して、ある種の RPC メカニズムを介して外の世界に読み取りたいと考えています。これに対する最善の解決策は何ですか?
それに関するSamzaドキュメントの1つの段落を次に示します。
私の頭に浮かぶ唯一の解決策は、通常の処理に加えて、特別な要求トピックでいくつかの相関 ID を持つ要求メッセージを消費し、同じ相関 ID を持つ応答メッセージを特別な応答トピックに入れることです。つまり、RPC-over-Kafka ソリューションのようなもので、最適とは思えません。
どんな考えでも大歓迎です!
message-queue - Kafka でプロデューサーとコンシューマーの両方のコンポーネントを設計する
毎秒数千のリクエストを処理するデータ パイプラインの主要コンポーネントとしてKafka
とを使用しています。Zookeeper
私はSamza
、データに対して行う必要がある小さな変換のためのリアルタイム データ処理ツールとして使用しています。
私の問題は、私の消費者の 1 人 (たとえばConsumerA
) がいくつかのトピックを消費しKafka
て処理することです。基本的には消化したトピックの要約を作成します。さらに、このデータを別のトピックとして Kafka にプッシュしたいのですが、それは Kafka と私のコンポーネントでループを形成します。
これが私を悩ませているのですが、これは Kafka で望ましいアーキテクチャですか?
ですべての処理をSamza
行い、消化された (要約) 情報のみをKafka
fromに保存する必要がありSamza
ます。しかし、これから行う処理の量は非常に重いため、別のコンポーネントを使用したいと考えています ( ComponentA
)。私の質問は、あらゆる種類のデータ パイプラインに一般化できると思います。
では、コンポーネントがデータ パイプラインでコンシューマーおよびプロデューサーになることは良い方法でしょうか?
scala - SBT を使用した RocksDB アプリケーションで Samza をテストする
SBT から Samza (RocksDB KV ストアを使用) アプリケーションを実行したいと考えています。./sbt "run " を実行すると、次のエラーが表示されます
./run
で実行するので、sbt は JAR をアセンブルせずにクラスを直接実行すると仮定します。
依存関係は正しく設定されており、librocksdbjni-linux64.so
内部に RocksDB JAR があります。
実行する前にアセンブリを作成する必要がありますか?
この場合、アセンブリを作成せずにテストするにはどうすればよいですか?
java - Samza/Kafka がメタデータの更新に失敗しました
現在、Kafka トピックからデータを取得し、そのデータを別の Kafka トピックに出力する Samza スクリプトの作成に取り組んでいます。非常に基本的な StreamTask を作成しましたが、実行するとエラーが発生します。
エラーは以下のとおりです。
必要な Kafka メタデータをスクリプトに構成または書き込む方法が完全にはわかりません。以下は、StreamTask とプロパティ ファイルのコードです。プロパティ ファイルに Metadata セクションを追加して、その後のプロセスに役立つかどうかを確認しましたが、役に立ちませんでした。それは正しい方向ですか、それとも何かが完全に欠けていますか?
apache-spark - ユーザーごとのストリーム処理
一連のストリームからのデータを処理し、他のストリームから独立して各ストリームに同じ精緻化を適用する必要があります。
私はすでに storm のようなフレームワークを見てきましたが、各ユーザーからのデータを個別に処理する必要がある一方で、静的ストリーム (つまり、Twitter からのツイート) のみを処理できるようです。
私が言いたいことの簡単な例は、各ユーザーが自分の GPS 位置を追跡し、平均速度、加速度、消費カロリーなどの統計をリアルタイムで見ることができるシステムです。もちろん、各ユーザーには独自のストリームがあり、システムは各ユーザーのストリームを個別に処理する必要があります。これは、あたかも各ユーザーが自分のデータを処理する独自の専用トポロジを持っているかのようです。
ストーム、スパーク ストリーミング、サムザなどのフレームワークでこれを実現する方法はありますか?
再利用したいコードがたくさんあるので、Python がサポートされていればさらに良いでしょう。
ご助力ありがとうございます
java - キープレフィックスで Samza KeyValueStore を照会する方法は?
Samza KeyValueStoreインターフェイスを使用して、共通のキー プレフィックスを持つすべてのドキュメントを取得するにはどうすればよいですか? キーは文字列であり、RocksDb が基になるストアになります。
range メソッドを使用した以下のアプローチに問題はありますか?