問題タブ [apache-kafka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Eclipse で Kafka ソース コードを実行する際の問題
状況: Kafka プロジェクトを適切に取得し、Linux コマンド ラインで「クイック スタート」を実行しました。問題はありません。次に、Scala プロジェクトをビルドし (Kafka は Scala にあります)、ソース コードを /core ディレクトリにインポートし、パッケージをビルド パスに配置しましたが、エラーが発生したため、パッケージを main/ にインポートするだけにしました。コアのディレクトリ:
インポート後の状況は次のとおりです。プロジェクトにscalaファイルとjavaファイルがあり、エラーログには、プロジェクトに実際にインポートされたjavaファイルといくつかのscalaファイルが見つからなかったことが示されています。プロジェクトはどうすればいいですか?scala java混合プロジェクトを正しくインポートするには?
apache-kafka - カフカによるデータモデリング? トピックとパーティション
新しいサービス (RDBMS 以外のデータ ストアやメッセージ キューなど) を使用するときに最初に考えることの 1 つは、「データをどのように構築すればよいか?」ということです。
いくつかの紹介資料を読み、見ました。特に、たとえばKafka: a Distributed Messaging System for Log Processingを取り上げると、次のように書かれています。
- 「トピックは、メッセージが関連付けられるコンテナです」
- 「並列処理の最小単位はトピックのパーティションです。これは、トピックの特定のパーティションに属するすべてのメッセージがコンシューマー グループ内のコンシューマーによって消費されることを意味します。」
これを知った上で、トピックとパーティションの使用方法を示す良い例は何でしょうか? 何かをいつトピックにする必要がありますか? 何かをいつパーティションにする必要がありますか?
例として、私の (Clojure) データが次のようになっているとします。
トピックはに基づいている必要がありuser-id
ますか? viewed
? at
? パーティションはどうですか?
どうやって決めるの?
hdfs - Kafka Storm HDFS/S3 データ フロー
Flume でできるように、Kafka でファンアウト (複製) できるかどうかは不明です。
Kafka で HDFS または S3 にデータを保存し、リアルタイム処理のためにそのデータの複製を Storm に送信したいと考えています。Storm の集計/分析の出力は、Cassandra に保存されます。Kafka から Storm にすべてのデータを流し、次に Storm から 2 つの出力を流す実装がいくつか見られます。ただし、未加工のデータ ストレージに対する Storm の依存関係を排除したいと考えています。
これは可能ですか?このようなドキュメント/例/実装を知っていますか?
また、Kafka は S3 ストレージを適切にサポートしていますか?
HDFS に保存するための Camus を見ました。このジョブを cron 経由で実行して、Kafka から HDFS にデータを継続的にロードしますか? 前のインスタンスが終了する前にジョブの 2 番目のインスタンスが開始された場合はどうなりますか? 最後に、Camus は S3 で動作しますか?
ありがとうございます。
hadoop - ファイルを日付に分割してkafkaからhdfsに書き込む最も効率的な方法は何ですか?
私は、kafka 経由で hdfs に書き込む必要があるプロジェクトに取り組んでいます。メッセージをkafkaに書き込むオンラインサーバーがあるとします。各メッセージにはタイムスタンプが含まれています。出力がメッセージのタイムスタンプに従ってファイル/ファイルになるジョブを作成したい。たとえば、kafka のデータが
3つのファイルを出力として取得したい
そしてもちろん、このジョブをもう一度実行していて、次のような新しいメッセージがキューにある場合
ファイルを作成する必要があります
私はいくつかのオープン ソースを見てきましたが、それらのほとんどは kafka からいくつかの hdfs フォルダーを読み取ります。この問題に対する最善の解決策/設計/オープンソースは何ですか
java - カフカ PointToPoint
問題
各 HA ペアに NFS を使用した複数のデータセンターの activeMQ セットアップがあり、activeMQ は実際にはスケーラブルではなく、NFS の問題でうまく機能しないようです。(5.7を使用しています)
可能な解決策
カフカに移動
要件
- PointToPoint と pub/sub 機能が必要です
- メッセージの優先順位 (kafka がそれをすぐに提供しないことは知っていますが、私たちの側で回避策があります)
質問
これは Kafka で可能ですか (必ずしもすぐに使用できるわけではありませんが、クライアントの調整が必要です)。そうでない場合、他にどのようなテクノロジを提案しますか? JMS である必要はありませんが、スケーラブルで信頼できる必要があります (また、NFS とうまく連携する必要があります)。
java - Maven重複タグ「依存関係」エラー
http://search.maven.org/#artifactdetails%7Corg.apache.kafka%7Ckafka_2.9.2%7C0.8.0-beta1%7CN%2FAから apache-kafka を含めようとしています
しかし、それを pom.xml に含めて「mvn package」を実行すると、次のエラーが発生します。
ここで何か間違ったことをしていますか?Maven は、「依存関係」が 2 回使用されていることに満足していないようです。どんな助けでも大歓迎です。