apache-kafka - samza で自分の仕事を書く方法

Question

最近、Samza フレームワークでストリーム処理作業を実行しようとしています。hello-samza の例を正常にデプロイしました。しかし、自分の仕事を書こうとすると、どこから仕事を始めればいいのかわかりません。

このドキュメントを読みましたが、まだ要点がわかりません。誰でも私を助けることができます：

私のコードのアーキテクチャ (ソースコード、lib コード、および構成) は何ですか。
コードがプッシュされるディレクトリ。
コードを実行するために必要なその他の作業。

あなたの提案は私に大いに役立ちます、どうもありがとう！

score 0 · Accepted Answer

Hello Samza の指示に従えば、完全に機能する Zookeeper、Kafka、および Yarn/Samza クラスターがローカルコンピューターで実行されます。そのプロジェクトには、物事をテストするために実行できる Wikipedia フィード関連のタスクがあります。

ただし、あなたと同じように、適切なディレクトリ構造を考え出し、新しいタスクの設定を構築するのに苦労しました (クラスター管理の要素なしで)。そこで、 hello-samza以外の新しいタスクに不要なものをすべて取り除いて、hello-samza-baseを作成しました。新しいタスクの作成に関する README に手順を含めました。

展開に関する限り、それはもう少し複雑です。Zookeeper、Kafka、および Yarn クラスターの作成について読んでください。

score -2 · Accepted Answer

そのドキュメントをもう少し読んで、hello-samza の例をもう少し見て、それを YARN にデプロイした場合は、それについてもう少し読んでください。あなたが探しているすべての答えがそこにあります。

hello-samza には 3 つのジョブがあります。1 つを選んでそれに従い、構成、スクリプトの起動などを行います。

これは、hello-samza ページからの wikipedia-feed ジョブの起動方法です。

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

プロパティファイルには、コンパイルされたジョブ/タスクコードの場所が示されます。ウィキペディアフィードのジョブ/タスクのソースコードは次のとおりです。

https://github.com/apache/samza-hello-samza/blob/master/src/main/java/samza/examples/wikipedia/task/WikipediaFeedStreamTask.java

このジョブを変更するか、コピーして変更するだけで、作業を開始できます。

apache-kafka - samza で自分の仕事を書く方法

4 に答える 4

Related

Reference