ETLの作成にはCascadingフレームワークを使用しています。
カスケードは与えます。
- 最適化された結合
- 並列実行ジョブ
- チェックポイントの作成
- 開発者は自分の好きな言語 (java、ruby、scala、clojure) で作業できます。
- 単体テスト。
現在、一部の X ETL (コストがかかる) ジョブを Hadoop ジョブに変換する 2 つのオプションがあります。
- ワークフローのカスケード。
- タレントの仕事。
私の質問はです。
- Talend は、ジョブを作成するためのコンポーネントとして豚、ハイブなどを使用します。では、パフォーマンスに何らかの利点があるのでしょうか、それとも talend は即興演奏を行っているのでしょうか?
- Talend に関する限り、単体テスト (Cascading フレームワークが提供するもの) について心配する必要はありますか?
- ジョブの作成 (X ETL から Hadoop ジョブへの変換) にカスケードではなく Talend を選択した場合、それは適切なオプションでしょうか。
X ETL をカスケード ワークフローに変換するには、指定された X ETL で使用可能なすべてのコンポーネントを作成する必要がありますが、1 回限りの作業になります。次に、Talend Studio が提供する次のような他の機能についても考える必要があります。
a. Data quality. b. Data Profiling. c. Data lineage, etc.
- 保守性に関する限り、カスケーディング ジョブはかなり適切に管理されています。だれでも talend に関する情報を提供できます。
要するに、私は X ETL から Hadoop ジョブへの変換ツールを作成しています。また、Cascading フレームワークまたは Talend から選択する必要があります。