“apache-kafka”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1012 参照

java - Eclipse で Kafka ソースコードを実行する際の問題

状況: Kafka プロジェクトを適切に取得し、Linux コマンドラインで「クイックスタート」を実行しました。問題はありません。次に、Scala プロジェクトをビルドし (Kafka は Scala にあります)、ソースコードを /core ディレクトリにインポートし、パッケージをビルドパスに配置しましたが、エラーが発生したため、パッケージを main/ にインポートするだけにしました。コアのディレクトリ:

インポート後の状況は次のとおりです。プロジェクトにscalaファイルとjavaファイルがあり、エラーログには、プロジェクトに実際にインポートされたjavaファイルといくつかのscalaファイルが見つからなかったことが示されています。プロジェクトはどうすればいいですか？scala java混合プロジェクトを正しくインポートするには?

2013-06-18T02:08:20.537

0 投票する

4 に答える

55378 参照

apache-kafka - カフカによるデータモデリング? トピックとパーティション

新しいサービス (RDBMS 以外のデータストアやメッセージキューなど) を使用するときに最初に考えることの 1 つは、「データをどのように構築すればよいか?」ということです。

いくつかの紹介資料を読み、見ました。特に、たとえばKafka: a Distributed Messaging System for Log Processingを取り上げると、次のように書かれています。

「トピックは、メッセージが関連付けられるコンテナです」
「並列処理の最小単位はトピックのパーティションです。これは、トピックの特定のパーティションに属するすべてのメッセージがコンシューマーグループ内のコンシューマーによって消費されることを意味します。」

これを知った上で、トピックとパーティションの使用方法を示す良い例は何でしょうか? 何かをいつトピックにする必要がありますか? 何かをいつパーティションにする必要がありますか?

例として、私の (Clojure) データが次のようになっているとします。

トピックはに基づいている必要がありuser-idますか? viewed? at? パーティションはどうですか？

どうやって決めるの？

apache-kafka apache-zookeeper data-modeling

2013-06-20T04:55:54.797

0 投票する

4 に答える

3584 参照

hdfs - Kafka Storm HDFS/S3 データフロー

Flume でできるように、Kafka でファンアウト (複製) できるかどうかは不明です。

Kafka で HDFS または S3 にデータを保存し、リアルタイム処理のためにそのデータの複製を Storm に送信したいと考えています。Storm の集計/分析の出力は、Cassandra に保存されます。Kafka から Storm にすべてのデータを流し、次に Storm から 2 つの出力を流す実装がいくつか見られます。ただし、未加工のデータストレージに対する Storm の依存関係を排除したいと考えています。

これは可能ですか？このようなドキュメント/例/実装を知っていますか?

また、Kafka は S3 ストレージを適切にサポートしていますか?

HDFS に保存するための Camus を見ました。このジョブを cron 経由で実行して、Kafka から HDFS にデータを継続的にロードしますか? 前のインスタンスが終了する前にジョブの 2 番目のインスタンスが開始された場合はどうなりますか? 最後に、Camus は S3 で動作しますか?

ありがとうございます。

hdfs apache-kafka apache-storm

2013-06-22T21:59:53.043

0 投票する

5 に答える

26177 参照

hadoop - ファイルを日付に分割してkafkaからhdfsに書き込む最も効率的な方法は何ですか?

私は、kafka 経由で hdfs に書き込む必要があるプロジェクトに取り組んでいます。メッセージをkafkaに書き込むオンラインサーバーがあるとします。各メッセージにはタイムスタンプが含まれています。出力がメッセージのタイムスタンプに従ってファイル/ファイルになるジョブを作成したい。たとえば、kafka のデータが

3つのファイルを出力として取得したい

そしてもちろん、このジョブをもう一度実行していて、次のような新しいメッセージがキューにある場合

ファイルを作成する必要があります

私はいくつかのオープンソースを見てきましたが、それらのほとんどは kafka からいくつかの hdfs フォルダーを読み取ります。この問題に対する最善の解決策/設計/オープンソースは何ですか

hadoop hdfs apache-kafka

2013-07-02T13:22:16.863

0 投票する

4 に答える

5062 参照

java - カフカ PointToPoint

問題

各 HA ペアに NFS を使用した複数のデータセンターの activeMQ セットアップがあり、activeMQ は実際にはスケーラブルではなく、NFS の問題でうまく機能しないようです。(5.7を使用しています)

可能な解決策

カフカに移動

要件

PointToPoint と pub/sub 機能が必要です
メッセージの優先順位 (kafka がそれをすぐに提供しないことは知っていますが、私たちの側で回避策があります)

質問

これは Kafka で可能ですか (必ずしもすぐに使用できるわけではありませんが、クライアントの調整が必要です)。そうでない場合、他にどのようなテクノロジを提案しますか? JMS である必要はありませんが、スケーラブルで信頼できる必要があります (また、NFS とうまく連携する必要があります)。

java jms apache-kafka

2013-07-10T19:51:38.817

0 投票する

1 に答える

4562 参照

java - Maven重複タグ「依存関係」エラー

http://search.maven.org/#artifactdetails%7Corg.apache.kafka%7Ckafka_2.9.2%7C0.8.0-beta1%7CN%2FAから apache-kafka を含めようとしています

しかし、それを pom.xml に含めて「mvn package」を実行すると、次のエラーが発生します。

ここで何か間違ったことをしていますか？Maven は、「依存関係」が 2 回使用されていることに満足していないようです。どんな助けでも大歓迎です。

java scala maven-2 dependencies apache-kafka

2013-07-15T01:19:18.390

問題タブ [apache-kafka]

java - Eclipse で Kafka ソース コードを実行する際の問題

apache-kafka - カフカによるデータモデリング? トピックとパーティション

hdfs - Kafka Storm HDFS/S3 データ フロー

hadoop - ファイルを日付に分割してkafkaからhdfsに書き込む最も効率的な方法は何ですか?

java - カフカ PointToPoint

java - Maven重複タグ「依存関係」エラー

Reference

java - Eclipse で Kafka ソースコードを実行する際の問題

hdfs - Kafka Storm HDFS/S3 データフロー