問題タブ [apache-kafka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1012 参照

java - Eclipse で Kafka ソース コードを実行する際の問題

状況: Kafka プロジェクトを適切に取得し、Linux コマンド ラインで「クイック スタート」を実行しました。問題はありません。次に、Scala プロジェクトをビルドし (Kafka は Scala にあります)、ソース コードを /core ディレクトリにインポートし、パッケージをビルド パスに配置しましたが、エラーが発生したため、パッケージを main/ にインポートするだけにしました。コアのディレクトリ:

インポート後の状況は次のとおりです。プロジェクトにscalaファイルとjavaファイルがあり、エラーログには、プロジェクトに実際にインポートされたjavaファイルといくつかのscalaファイルが見つからなかったことが示されています。プロジェクトはどうすればいいですか?scala java混合プロジェクトを正しくインポートするには?

0 投票する
4 に答える
55378 参照

apache-kafka - カフカによるデータモデリング? トピックとパーティション

新しいサービス (RDBMS 以外のデータ ストアやメッセージ キューなど) を使用するときに最初に考えることの 1 つは、「データをどのように構築すればよいか?」ということです。

いくつかの紹介資料を読み、見ました。特に、たとえばKafka: a Distributed Messaging System for Log Processingを取り上げると、次のように書かれています。

  • 「トピックは、メッセージが関連付けられるコンテナです」
  • 「並列処理の最小単位はトピックのパーティションです。これは、トピックの特定のパーティションに属するすべてのメッセージがコンシューマー グループ内のコンシューマーによって消費されることを意味します。」

これを知った上で、トピックとパーティションの使用方法を示す良い例は何でしょうか? 何かをいつトピックにする必要がありますか? 何かをいつパーティションにする必要がありますか?

例として、私の (Clojure) データが次のようになっているとします。

トピックはに基づいている必要がありuser-idますか? viewed? at? パーティションはどうですか?

どうやって決めるの?

0 投票する
4 に答える
3584 参照

hdfs - Kafka Storm HDFS/S3 データ フロー

Flume でできるように、Kafka でファンアウト (複製) できるかどうかは不明です。

Kafka で HDFS または S3 にデータを保存し、リアルタイム処理のためにそのデータの複製を Storm に送信したいと考えています。Storm の集計/分析の出力は、Cassandra に保存されます。Kafka から Storm にすべてのデータを流し、次に Storm から 2 つの出力を流す実装がいくつか見られます。ただし、未加工のデータ ストレージに対する Storm の依存関係を排除したいと考えています。

これは可能ですか?このようなドキュメント/例/実装を知っていますか?

また、Kafka は S3 ストレージを適切にサポートしていますか?

HDFS に保存するための Camus を見ました。このジョブを cron 経由で実行して、Kafka から HDFS にデータを継続的にロードしますか? 前のインスタンスが終了する前にジョブの 2 番目のインスタンスが開始された場合はどうなりますか? 最後に、Camus は S3 で動作しますか?

ありがとうございます。

0 投票する
5 に答える
26177 参照

hadoop - ファイルを日付に分割してkafkaからhdfsに書き込む最も効率的な方法は何ですか?

私は、kafka 経由で hdfs に書き込む必要があるプロジェクトに取り組んでいます。メッセージをkafkaに書き込むオンラインサーバーがあるとします。各メッセージにはタイムスタンプが含まれています。出力がメッセージのタイムスタンプに従ってファイル/ファイルになるジョブを作成したい。たとえば、kafka のデータが

3つのファイルを出力として取得したい

そしてもちろん、このジョブをもう一度実行していて、次のような新しいメッセージがキューにある場合

ファイルを作成する必要があります

私はいくつかのオープン ソースを見てきましたが、それらのほとんどは kafka からいくつかの hdfs フォルダーを読み取ります。この問題に対する最善の解決策/設計/オープンソースは何ですか

0 投票する
4 に答える
5062 参照

java - カフカ PointToPoint

問題

各 HA ペアに NFS を使用した複数のデータセンターの activeMQ セットアップがあり、activeMQ は実際にはスケーラブルではなく、NFS の問題でうまく機能しないようです。(5.7を使用しています)

可能な解決策

カフカに移動

要件

  • PointToPoint と pub/sub 機能が必要です
  • メッセージの優先順位 (kafka がそれをすぐに提供しないことは知っていますが、私たちの側で回避策があります)

質問

これは Kafka で可能ですか (必ずしもすぐに使用できるわけではありませんが、クライアントの調整が必要です)。そうでない場合、他にどのようなテクノロジを提案しますか? JMS である必要はありませんが、スケーラブルで信頼できる必要があります (また、NFS とうまく連携する必要があります)。

0 投票する
1 に答える
4562 参照

java - Maven重複タグ「依存関係」エラー

http://search.maven.org/#artifactdetails%7Corg.apache.kafka%7Ckafka_2.9.2%7C0.8.0-beta1%7CN%2FAから apache-kafka を含めようとしています

しかし、それを pom.xml に含めて「mvn package」を実行すると、次のエラーが発生します。

ここで何か間違ったことをしていますか?Maven は、「依存関係」が 2 回使用されていることに満足していないようです。どんな助けでも大歓迎です。