“apache-kafka-streams”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

4880 参照

json - JSON から Avro への Kafka ストリーム

Kafka Stream を使用して、文字列/JSON メッセージを含むトピックを Avro メッセージとして別のトピックに変換しようとしています。

ストリームの主な方法:

変身：

そして、次のような例外を取得します。

これは正しいアプローチですか？Kafka Streams と Avro は初めてです

2016-10-28T11:04:08.877

0 投票する

1 に答える

298 参照

apache-kafka - Kafka は、単一のログイベント行を結合されたログイベントに集約します

ログイベントの処理に Kafka を使用しています。単純なコネクタとストリーム変換に関する Kafka Connect と Kafka Streams の基本的な知識があります。

これで、次の構造のログファイルが作成されました。

ログイベントには、event_id で接続された複数のログ行があります (メールログなど)。

例：

一般に、複数のイベントがあります。

例：

時間枠 (START と END の間) は最大 5 分です。

結果として、次のようなトピックが必要です

例：

これを達成するための適切なツールは何ですか? Kafka Streams で解決しようとしましたが、方法を理解できます..

apache-kafka apache-kafka-streams

2016-11-08T11:24:40.950

0 投票する

2 に答える

3258 参照

apache-kafka - Kafka ストリーム - メトリクスレジストリからのデータへのアクセス

Kafka Streams メトリックレジストリ内のデータにアクセスする方法に関するドキュメントを見つけるのに苦労しています。丸い穴に四角いペグをはめようとしているのかもしれません。以下の点についてアドバイスをいただければと思います。

ゴール

Kafka Streams メトリクスレジストリに記録されているメトリクスを収集し、これらの値を任意のエンドポイントに送信します

ワークフロー

これは私が実行する必要があると思うことであり、最後のステップを除くすべてのステップを完了しました (メトリクスレジストリが非公開であるため、このステップで問題が発生しました)。しかし、私はこれについて間違った方法で行っているかもしれません:

インターフェイスを実装するクラスを定義しMetricReporterます。Kafka がメソッドで作成するメトリックのリストを作成しますmetricChange(たとえば、このメソッドが呼び出されるたびに、現在登録されているメトリックでハッシュマップを更新します)。
metric.reporters構成プロパティでこのクラスを指定します
現在のデータについて Kafka Streams メトリクスレジストリをポーリングするプロセスを設定し、値を任意のエンドポイントに送信します。

いずれにせよ、メトリクスレジストリが公開されていないため、 Kafka 0.10.0.1では最後の手順は実行できないようです。正しいワークフローであるかどうか (そうではないように聞こえます..)、または Kafka Streams メトリックを抽出するプロセスを誤解している場合は、これを教えてください。

apache-kafka apache-kafka-streams

2016-11-16T20:12:33.430

0 投票する

1 に答える

313 参照

apache-spark - DSMS、ストーム、フリンクの違い

DSMS はデータストリーム管理システムに対応します。これらのシステムにより、ユーザーは、ユーザーによって削除されるまで継続的に実行されるクエリを送信できます。

Storm や Flink などのシステムは DSMS と見なすことができますか、それともより一般的なものですか?

ありがとう

apache-spark apache-storm apache-flink apache-kafka-streams

2016-11-20T12:50:46.930

0 投票する

1 に答える

6694 参照

java - 複数の同一の Kafka Streams トピックのマージ

ソースの 1 つに障害が発生した場合に高可用性を確保できるように、2 つの Kafka トピックが異なるソースからまったく同じコンテンツをストリーミングしています。Kafka Streams 0.10.1.0 を使用して 2 つのトピックを 1 つの出力トピックにマージしようとしています。これにより、失敗時にメッセージを見逃さず、すべてのソースが稼働しているときに重複がなくなります。

KStreamのメソッドを使用するleftJoinと、トピックの 1 つ (セカンダリトピック) は問題なくダウンできますが、プライマリトピックがダウンすると、出力トピックには何も送信されません。これは、Kafka Streams 開発者ガイドによると、

KStream-KStream leftJoin は、常にプライマリストリームから到着するレコードによって駆動されます。

そのため、プライマリストリームからのレコードがない場合は、セカンダリストリームのレコードが存在しても使用しません。プライマリストリームがオンラインに戻ると、出力は正常に再開されます。

また、(重複レコードを追加する)を使用してouterJoinから、重複を取り除くために KTable および groupByKey への変換を試みました。

しかし、私はまだ時々重複を取得します。commit.interval.ms=200また、KTable を取得して出力ストリームに十分な頻度で送信するためにも使用しています。

複数の同一の入力トピックから正確に 1 回の出力を取得するために、このマージにアプローチする最良の方法は何でしょうか?

java high-availability apache-kafka-streams

2016-11-24T23:35:06.187

0 投票する

1 に答える

6102 参照

java - KStream でオフセット値を取得するにはどうすればよいですか

Kafka Streams で PoC を開発しています。次に、ストリームコンシューマーでオフセット値を取得し、それを使用して(topic-offset)->hash各メッセージの一意のキーを生成する必要があります。その理由は、プロデューサーが syslog であり、ID を持つプロデューサーはごくわずかだからです。再処理の場合は同じキーを再生成する必要があるため、コンシューマーで UUID を生成できません。

私の問題:org.apache.kafka.streams.processor.ProcessorContextクラス.offset()は値を返すメソッドを公開していますが、プロセッサの代わりに KStream を使用しており、同じものを返すメソッドが見つかりませんでした。

KStream から各行の消費者の値を抽出する方法を知っている人はいますか? 前もって感謝します。

java apache-kafka apache-kafka-streams

2016-11-25T14:38:43.860

問題タブ [apache-kafka-streams]

json - JSON から Avro への Kafka ストリーム

apache-kafka - Kafka は、単一のログ イベント行を結合されたログ イベントに集約します

apache-kafka - Kafka ストリーム - メトリクス レジストリからのデータへのアクセス

ゴール

ワークフロー

apache-spark - DSMS、ストーム、フリンクの違い

java - 複数の同一の Kafka Streams トピックのマージ

java - KStream でオフセット値を取得するにはどうすればよいですか

Reference

apache-kafka - Kafka は、単一のログイベント行を結合されたログイベントに集約します

apache-kafka - Kafka ストリーム - メトリクスレジストリからのデータへのアクセス