0

最近、Samza フレームワークでストリーム処理作業を実行しようとしています。hello-samza の例を正常にデプロイしました。しかし、自分の仕事を書こうとすると、どこから仕事を始めればいいのかわかりません。

このドキュメントを読みましたが、まだ要点がわかりません。誰でも私を助けることができます:

  1. 私のコードのアーキテクチャ (ソース コード、lib コード、および構成) は何ですか。
  2. コードがプッシュされるディレクトリ。
  3. コードを実行するために必要なその他の作業。

あなたの提案は私に大いに役立ちます、どうもありがとう!

4

4 に答える 4

0

Hello Samza の指示に従えば、完全に機能する Zookeeper、Kafka、および Yarn/Samza クラスターがローカル コンピューターで実行されます。そのプロジェクトには、物事をテストするために実行できる Wikipedia フィード関連のタスクがあります。

ただし、あなたと同じように、適切なディレクトリ構造を考え出し、新しいタスクの設定を構築するのに苦労しました (クラスター管理の要素なしで)。そこで、 hello-samza以外の新しいタスクに不要なものをすべて取り除いて、hello-samza-baseを作成しました。新しいタスクの作成に関する README に手順を含めました。

展開に関する限り、それはもう少し複雑です。Zookeeper、Kafka、および Yarn クラスターの作成について読んでください。

于 2016-05-01T22:21:44.547 に答える
-2

そのドキュメントをもう少し読んで、hello-samza の例をもう少し見て、それを YARN にデプロイした場合は、それについてもう少し読んでください。あなたが探しているすべての答えがそこにあります。

hello-samza には 3 つのジョブがあります。1 つを選んでそれに従い、構成、スクリプトの起動などを行います。

これは、hello-samza ページからの wikipedia-feed ジョブの起動方法です。

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

プロパティ ファイルには、コンパイルされたジョブ/タスク コードの場所が示されます。ウィキペディア フィードのジョブ/タスクのソース コードは次のとおりです。

https://github.com/apache/samza-hello-samza/blob/master/src/main/java/samza/examples/wikipedia/task/WikipediaFeedStreamTask.java

このジョブを変更するか、コピーして変更するだけで、作業を開始できます。

于 2015-12-08T15:24:32.787 に答える